Mardi soir vous avez peut-être constaté qu’une partie des sites web et services en ligne (iCloud compris) n’était plus accessible. En effet et la faute reviens au serveur S3 d’Amazon Web Services.

Dans le joli monde de l’informatique, parfois les plus grandes catastrophes proviennent de choses toutes bêtes. Durant 4h certaine sites web et services en ligne n’étaient plus accessible.

Amazon vient de donner l’explication du plantage massif. Mardi matin, des membres de l’équipe S3 travaillaient sur le débogage du système de facturation.

Ils ont dû déconnecter un petit nombre de serveurs. Comme rien ne se passe jamais comme il faut, durant l’opération une des commandes a été mal saisie, ce qui a provoqué le retrait d’un nombre de serveurs bien plus grand que prévu.

 

Un des serveurs déconnectés s’occupé de gérer les métadonnées et les informations de localisation d’objets S3 sur l’infra qui se trouve dans le Nord de la Virginie. Un autre serveur s’occupait lui de la gestion du stockage et avait bien évidemment besoin de l’autre serveur pour fonctionner. Lorsque le redémarrage de ces deux serveurs, d’autres services Amazone Web Services (AWS) ont été touchés.

 

L’entreprise explique que S3 est capable de tenir le choc d’une perte de plusieurs serveurs mais lors de la procédure de reboot la vérification de l’intégrité des métadonnées a demandé plus de temps que prévu.

 

Morale de l’histoire, une petite erreur humaine a provoqué une belle pagaille sur internet. L’histoire ne dis pas si les admins système boss toujours chez amazon ^__^