jeudi 9 novembre 2017

Panne globale de notre hébergeur

Notre hébergeur (OVH) rencontre actuellement des problèmes électriques et réseaux sur plusieurs sites en Europe, ce qui a pour effet de rendre indisponible l'ensemble de nos services.

[11h30] État actuel : l'ensemble de nos serveurs et l'application fonctionnent.

07h20:

Panne électrique détectée sur le datacenter de Strasbourg. Tweet de Octave Klaba (CEO d'OVH) :

"Nous avons un souci d'alimentation de SBG1/SBG4. Les 2 arrivées électriques EDF sont down (!!) et les 2 chaines de groupes électrogènes se sont mis en défaut (!!!). L’ensemble de 4 arrivées elec n'alimentent plus la salle de routage. Nous sommes tous sur le problème."

07h30:

90Tech initie une migration des IPs des serveurs de Strasbourg vers le datacenter de Roubaix.

07h45:

Après un quart d'heure, la migration des IPs n'est toujours pas effective (cette opération dure généralement pas + de 2 minutes).

07h50:

Nous redirigeons nos clients en mettant à jour les serveurs DNS situés à Roubaix.

07h52:

La solution fonctionne, l'application est à nouveau opérationnelle.

08h08:

L'ensemble de nos serveurs à Roubaix ne répondent plus.

Le site d'OVH ne fonctionne plus.

08h50:

Octave Klaba tweet:

"En plus de souci sur SBG, nous avons le souci sur le réseau optique en Europe qui interconnecte RBX et GRA avec les POP. Il est down (!!)."

"SBG: ERDF is trying to find out the default. 2 separated 20kV lines are down. We are trying to restart 2 generators A+B for SBG1/SG4. 2 others generators A+B work in SBG2. 1 routing room is in SBG1, the second in SBG2. Both are down. #Murphy"

"We have a general optical issue on all our optical network in Europe: all chassis in all POP shutdown all the links 100G simultaneous (!!). RBX SBG GRA LIM ERI are down. P19 WAW BHS are UP."

En conclusion: l'ensemble du réseau OVH en Europe est impacté.

09h34:

Octave Klaba tweet: "SBG: 1 gen restarted."

Mais le datacenter reste injoignable.

09h35:

Octave Klaba tweet: "RBX: all optical links 100G from RBX to TH2, GSW, LDN, BRU, FRA, AMS are down."

Le réseau du datacenter de Roubaix est complètement paralysé.

10h19:

Octave Klaba tweet: "SBG: 2 routing rooms are UP powered by gen. EDRF still down. ETA: 15min RBX: the DB of the optical node in RBX is corrupted. All links are still down. We upload the backup. ETA: 30min"

10h27:

Octave Klaba tweet: "RBX: restore of the setup in progress."

10h30:

Octave Klaba tweet: "RBX: the links are coming UP."

10h34:

Octave Klaba tweet: "RBX: UP SBG: in progress"

10h38:

1/2 serveurs applicatifs fonctionnent.

2/3 serveurs de base de données fonctionnent

L'application fonctionne.

10h46:

Octave Klaba tweet: "SBG: ERDF repared 1 line 20KV. the second is still down. All Gens are UP. 2 routing rooms coming UP. SBG2 will be UP in 15-20min (boot time). SBG1/SBG4: 1h-2h"

11h15:

Octave Klaba tweet: "SBG: 2 routing rooms are UP. we are restarting the servers in SBG1/SBG4."

Nos serveurs situés à Strasbourg sont toujours hors ligne.

11h30:

Nos serveurs sont tous fonctionnels

Une maintenance est prévue ce soir à 22h pour rééquilibrer certains services.