Un Cloud de fumée au-dessus du

Datacenter d’OVH

 

Dans la nuit du 9 au 10 mars, un incendie s’est déclaré sur un site d’OVH à Strasbourg. Cet incident a entrainé la destruction totale d’un data center et la mise hors tension de 3 autres pour stopper la propagation. Les applications de certains de nos clients étaient stockées sur un des datacenters mis hors tension ce qui a entrainé une indisponibilité du logiciel d’environ 72h. Cet incident a fait ressortir chez certains d’entre vous des interrogations quant à la dématérialisation de vos données. Nous avons posé vos questions à Mikaël SERREAU, Directeur associé et développeur du logiciel GAZOLEEN.

 

 

L’interview

Est-ce que vous pouvez nous expliquer concrètement ce qui était stocké dans ce data center d’OVH ?

Dans le Datacenter qui a été totalement détruit était stockées une partie des sauvegardes des applications et dans l’un des datacenters mis hors tension, les applications en production de certains utilisateurs.

Pourquoi tous les utilisateurs de GAZOLEEN n’ont pas été impactés ?

Toutes les applications en production sont réparties dans différents serveurs et plusieurs datacenters. Ce dispatching a pour objectif de diversifier le risque pour que justement dans une telle situation ce ne soit pas tous les utilisateurs Gazoleen qui soient impactés.

Nous pouvons être beaucoup plus réactifs pour gérer un incident sur un volume d’applications restreint. Grâce à cette stratégie ce n’est qu’un tiers des applications Gazoleen qui ont été touchées.

Comment avez-vous remis en service les applications et pourquoi cela a pris 72H ?

Comme je vous le disais, les sauvegardes des applications étaient dans le datacenter qui a brûlé. Cependant, nous réalisons bien évidement plusieurs sauvegardes dispatchées à d’autres endroits en France. Nous avons donc dû aller récupérer ses sauvegardes puis réinstaller plusieurs nouveaux serveurs pouvant contenir les applications.

Nous avons ensuite redéployé l’ensemble des applications impactées et nous les avons reconfigurées avec l’import des sauvegardes de base de données.

Compte tenu de leur « format », ces sauvegardes ne nous permettaient pas d’être aussi réactifs que celles contenues dans le datacenter détruit car elles nécessitaient la réinstallation totale et manuelle des applications. D’autres part, l’accès à ces sauvegardes était totalement engorgé à cause de l’ampleur européenne de l’incident qui a saturé tant les réseaux numériques que les ingénieurs qui travaillent dessus. Un choix stratégique a d’ailleurs été de prioriser l’accès aux applications avec les fiches clients et les plannings. Les données « lourdes » que sont les photos, pdf et logos ont été intégrées dans un second temps car elles nécessitaient des temps de transfert beaucoup plus long.

Je comprends que 72h d’indisponibilité est très long pour une entreprise qui reste à l’arrêt, mais nous avons réussi à limiter les dégâts puisqu’à ce jour (23 mars 2021), le datacenter d’OVH n’est toujours pas intégralement remis en service.

Qu’est-ce que vous comptez faire pour qu’un incident comme ça ne se reproduise pas ?

Il faut d’abord bien comprendre que cet incident est sans précédent. On parle de plus de 20.000 serveurs détruits et plus de 50.000 à l’arrêt avec un impact européen tant en termes d’indisponibilité que de pertes de données. Maintenant « force est de constater que ce qui était impensable hier est bien réel aujourd’hui donc il faut s’adapter » et prendre en compte ce nouveau risque.

Concrètement, voici les actions que nous sommes en train de mettre en place

 

 

 

 

 

  Augmentation de la recurrence des sauvegardes sur des supports doublés

En ce qui concerne la sauvegarde des données, contrairement à ce qu’on subit de nombreuses entreprises, nous avons pu récupérer une sauvegarde pour chacune des applications.Néanmoins, nous avons d’ores et déjà mis en place une nouvelle stratégie.

Nous avons augmenté la récurrence des sauvegardes dans la journée et doublé le nombre de support de sauvegarde.

Concrètement aujourd’hui, chaque application sera sauvegardée à 4 moments différents de la journée sur plusieurs serveurs physiques différents.

 

 

 

 

 

 

Modification de l’infrastructure actuelle

 

En ce qui concerne la disponibilité de l’application, je veux insister sur le fait qu’un service numérique avec une disponibilité de 100% n’existe pas.
Celui qui le prétend est au mieux un incompétent au pire un escroc.

Nous sommes néanmoins en train de réfléchir à des modifications de notre infrastructure pour améliorer notre taux de disponibilité dans le cas d’évènements similaires en essayant de ne pas impacter le coût de l’abonnement.

 

 

 

 

 

Mise en place d’un nouveau système d’envoi de planning
par mail

 

L’indisponibilité crée pour nos utilisateurs deux préjudices : le fait de ne pas pouvoir honorer les chantiers en cours et le fait de ne pas pouvoir planifier de nouvelles interventions.

Notre priorité est de permettre à nos utilisateurs de pouvoir honorer les rendez-vous déjà planifiés. Pour cela, nous allons mettre en place un nouveau système d’envoi des plannings par mail : le dimanche sera envoyé le planning de la semaine à venir et le planning des 3 prochains jours sera envoyé quotidiennement.

Par défaut, ces sauvegardes seront envoyées aux comptes administrateurs de l’application. Tous ces plannings feront également l’objet de sauvegardes sur nos infrastructures et pourront être adressées très rapidement en cas de non réception de l’email.

 

 

 

 

 

 

Mise en place d’un service « très haute disponibilité »

 

En plus de tout cela, peut-être que pour quelques-uns de nos utilisateurs un service très haute disponibilité avec une infrastructure dédiée pourrait être proposé.

Mais il faut bien avoir conscience que son coût pourra être important.

 

Est-ce que les utilisateurs doivent procéder également à des sauvegardes ?

Je comprends qu’après ces évènements on soit tenté de vouloir retourner aux méthodes manuelles. Mais en réalité il est impossible de réaliser un export de toutes ses données sur un seul fichier.

On réfléchit quand même à mettre en place des exports partiels (clients, plannings, factures….) accessibles depuis les applications pour rassurer les utilisateurs. Mais la sécurisation la plus efficace est celle que nous venons de renforcer à savoir les différentes sauvegardes quotidiennes et l’envoi des plannings.

 

Un mot pour conclure

Je tenais à dire à nos utilisateurs que nous avons pleinement pris la mesure des conséquences que cet incident a eu sur leurs activités et qu’ils soient assurés que nous avons tout mis en œuvre pour rétablir le service au plus vite. Si l’on devait faire un bilan, je retiendrais que l’infrastructure qui était en place a permis de limiter l’impact de cet incident tant en termes d’applications touchées qu’en terme de durée mais qu’il faut tout de même tirer les leçons de cette situation pour nous améliorer. C’est ce qui a déjà été fait concernant la sauvegarde des données et c’est ce qui sera fait demain pour la disponibilité.

Enfin j’invite très fortement tous nos utilisateurs à nous rejoindre sur le groupe Télégram.

Ce canal nous a permis de communiquer très rapidement sur la situation et nous comptons continuer à communiquer dessus sur des sujets plus positifs comme les mises à jour et nouvelles fonctionnalités de Gazoleen.