Amazon S3 : une simple erreur de frappe a paralysé de nombreux sites web

Par

le

Tout le monde fait des erreurs. Mais travailler chez Amazon Web Services signifie qu’une erreur de frappe peut conduire à une panne massive qui paralyse de nombreux sites et services populaires.

La semaine dernière, une erreur faite lors de l’entrée d’une commande informatique a provoqué la panne du service de stockage Cloud S3 d’Amazon durant 11 heures.

Plusieurs autres services Amazon dans la région région de Virginie du Nord (US-EAST-1 qui s’appuient sur S3, comme Elastic Block Store et Lambda, ont tous été touchés par la panne. AWS s’est excusé pour l’incident dans un communiqué publié jeudi. La panne a aussi touché les services Netflix, Reddit, Adobe et Imgur. Plus de la moitié des 100 meilleurs sites de vente en ligne ont connu des temps de chargement plus lents pendant la panne, a annoncé le service de surveillance du web à travers le monde Apica.

Voici ce qui a déclenché la panne, et ce qu’Amazon prévoit de faire:

Selon Amazon, un membre autorisé de l’équipe S3 a exécuté une commande qui était censée « supprimer un petit nombre de serveurs pour un des sous-systèmes S3« , en réponse au processus de facturation du service fonctionnant plus lentement que prévu. L’un des paramètres de la commande a été entré incorrectement et un plus grand nombre de serveurs ont été supprimés.

Le sous-système Index gère les métadonnées et les informations de localisation de tous les objets S3 de la région », tandis que le sous-système de placement gère l’allocation de nouveaux stockages et requiert que le sous-système d’index fonctionne proprement pour fonctionner correctement. Même si ces sous-systèmes sont tolérants aux pannes, le nombre de serveurs impactés nécessitait un redémarrage complet des sous-systèmes.

En fait, Amazon n’a pas entièrement redémarré ces systèmes dans ses plus grandes régions depuis plusieurs années, et S3 a connu une croissance massive entre-temps. Le redémarrage de ces sous-systèmes a donc pris plus de temps que prévu, ce qui a conduit à une panne plus longue.

En réponse à cet incident, AWS apporte plusieurs modifications à ses outils et processus internes. L’outil responsable de la panne a été modifié et AWS évalue également ses autres outils pour s’assurer qu’ils ont des systèmes de sécurité suffisamment performants.