Cloudflare назвала причину глобального сбоя — ошибка в конфигурации Обложка: Skyread

Cloudflare назвала причину глобального сбоя — ошибка в конфигурации

Новости
Главное:

  • Почти пятинедельный глобальный сбой в сервисах Cloudflare был вызван ошибкой в файле конфигурации системы защиты от ботов.
  • Обновление прав доступа к базе данных ClickHouse неожиданно удвоило размер файла, что привело к перегрузке основных прокси-серверов и массовым ошибкам 5xx.
  • Сбой затронул множество известных платформ и сервисов, включая ChatGPT, Uber, Spotify и другие, и стал самым серьёзным инцидентом с 2019 года для компании.

Американская компания Cloudflare, известная предоставлением услуг CDN и защиты от DDoS-атак, раскрыла причины масштабного сбоя в работе своих сервисов, продолжавшегося около пяти часов 18 ноября 2025 года. Как пояснил технический директор Дэн Кнехт, инцидент произошёл не из-за внешней атаки или проблем с DNS, а в результате скрытой ошибки, возникшей после планового обновления файла конфигурации системы противодействия ботам.

Ошибка была связана с обновлением прав доступа к базе данных ClickHouse. Это небольшое изменение неожиданно удвоило размер конфигурационного файла, который постоянно распространяется по глобальной сети Cloudflare каждые несколько минут. Увеличенный файл превысил внутренние лимиты основного прокси-сервера, вызвав панику и переполнение, проявившееся в виде множества ошибок 5xx у клиентов компании.

Сложность ситуации заключалась в том, что файл конфигурации обновлялся регулярно, и то показывал работоспособность, то приводил к сбоям. Первоначально инженеры предполагали атаку с переменным высоким объёмом данных, однако вскоре выяснилось, что произошёл сбой из-за искажённого файла управления ботами. Для устранения неполадок Cloudflare остановила рассылку проблемного файла, внедрила исправленную версию и перезапустила ключевые прокси-сервисы. Благодаря этим мерам стабильность сервисов постепенно была восстановлена.

В результате инцидента пострадали не только системы защиты от ботов, но и сервисы KV, Cloudflare Access, Turnstile и некоторые элементы панели управления. Компания признала данный сбой самым серьёзным с 2019 года, после которого запланировано внедрение дополнительных механизмов защиты, включая усиление контроля над приемом конфигурационных файлов, добавление аварийных выключателей и снижение нагрузки на систему в стрессовых условиях.

Стоит отметить, что ранее в 2025 году Cloudflare уже сталкивалась с глобальным сбоем, когда в июле их публичный DNS-резолвер 1.1.1.1 и сервис Gateway plain text DNS были недоступны в течение часа из-за неправильной настройки устаревшей инфраструктуры. Тогда пользователям рекомендовалось временно переключиться на альтернативных DNS-провайдеров.

Сбой 18 ноября затронул множество известных платформ и облачных сервисов по всему миру, среди которых Uber, Spotify, Canva, некоторые социальные сети, игровые площадки и популярный сервис ChatGPT. Инцидент продемонстрировал высокую зависимость интернета и множества онлайн-сервисов от техники и софта Cloudflare, а также необходимость дальнейшего совершенствования механизмов контроля изменений в их инфраструктуре.

Tagged