Сбой AWS на 15 часов вызван ошибкой в программе автоматизации DNS Обложка: Skyread

Сбой AWS на 15 часов вызван ошибкой в программе автоматизации DNS

Новости
Главное:

  • Сбой в AWS длился около 15 часов и затронул более 110 сервисов, включая популярные приложения и платформы.
  • Причиной стала ошибка в программном обеспечении автоматизации, приведшая к удалению корректных DNS-записей для DynamoDB.
  • Для решения проблемы потребовалось ручное вмешательство инженеров, после чего компания обещала усовершенствовать механизмы контроля.

Amazon раскрыла детали крупного сбоя, который произошёл 20 октября 2025 года в Центре обработки данных AWS в Северной Вирджинии. Инцидент затронул более 110 облачных сервисов компании и миллионы пользователей по всему миру, вызвав перебои в работе таких популярных платформ, как Airtable, Canva, Signal, Snapchat, Fortnite, ChatGPT, Zoom, Reddit, Apple Music и многих других.

Как пояснили в Amazon, сбой произошёл из-за ошибки в программном обеспечении, управляющем автоматическим обновлением записей DNS для сервиса DynamoDB. В момент инцидента две служебные автоматические программы одновременно изменили адреса DNS-серверов, что привело к их конфликту. В результате одна из систем случайно перезаписала актуальные адреса устаревшими данными, а вторая удалили эти некорректные записи, полностью обнулив настройки DNS для DynamoDB.

Из-за этого система теряла возможность корректно разрешать адреса региональных точек подключения к DynamoDB, что стало причиной массовых сбоев у множества внешних сервисов и пользовательских приложений, сильно зависящих от корректной работы базы данных. Вместо стандартного автоматического восстановления ситуации, система оказалась неспособной самостоятельно исправить несогласованное состояние данных, что потребовало экстренного привлечения сетевых инженеров Amazon.

Инженерам пришлось вручную вмешаться, чтобы деблокировать и восстановить функциональность DNS-записей. Для локализации проблемы и предотвращения её распространения по всему миру временно была отключена система автоматизации обновления DNS для DynamoDB. Компания также объявила о планах усовершенствовать алгоритмы автоматизации, добавить дополнительные проверки и расширить механизмы контроля для систем балансировщиков нагрузки и вычислительных служб EC2.

В сообщении пресс-службы Amazon подчеркнули, что несмотря на богатый опыт в обеспечении высокой доступности сервисов, выявленная ошибка стала причиной серьёзных неудобств для клиентов и пользователей многих онлайн-сервисов. Компания принесла извинения за случившееся и заверила, что предпринимает все необходимые меры для предотвращения аналогичных инцидентов в будущем.

Tagged