Десять ошибок обновления брандмауэра вызвали сбой у оператора Optus Обложка: Skyread

Десять ошибок обновления брандмауэра вызвали сбой у оператора Optus

Новости
Главное:

  • Сбой у австралийского оператора Optus, вызвавший 14 часов недоступности экстренных служб, произошёл из-за десяти ошибок при обновлении брандмауэра.
  • Неправильные инструкции и отсутствие стандартных проверок привели к нарушению маршрутизации вызовов на номер 000, что повлияло на 455 звонков и вызвало два летальных случая.
  • Отчёт подчёркивает слабое управление процессами, низкое качество коммуникации между подрядчиками и недостаточную техническую подготовку сотрудников, а также рекомендует пересмотр организационной структуры и улучшение реакций на кризис.

Независимая проверка выявила ключевые причины серьёзного сбоя работы австралийского оператора сотовой связи Optus, который 18 сентября привёл к недоступности экстренных служб в течение 14 часов. Главным виновником инцидента названа серия из десяти ошибок, допущенных во время шестнадцатого обновления брандмауэра, выполненного совместно инженерами Optus и подрядчиком Nokia.

По информации из отчёта, предыдущие пятнадцать обновлений проходили без нареканий, однако в этот раз была нарушена стандартная процедура. Основной проблемой стало неправильное классифицирование обновления компанией Nokia как не влияющего на сетевой трафик. В результате Optus не провела необходимые проверки и оценку рисков перед внедрением изменений. Помимо этого, инженеры Optus не принимали участие во всех необходимых совещаниях, а во время установки обновления не придерживались установленных инструкций.

После активации нового брандмауэра начались проблемы с маршрутизацией вызовов, но обе организации — Optus и Nokia — проигнорировали предупреждения системы мониторинга. Кроме того, аналитика проводилась на основе агрегированных данных по всей сети, без учёта локальных параметров. Это препятствовало своевременному выявлению локальных сбоев, в результате чего неполадки были обнаружены только после поступления жалоб клиентов.

Стоит отметить, что данные нарушения повлияли на маршрутизацию 455 звонков на экстренный номер 000, что привело к трагическим последствиям — двум смертельным случаям. Автор отчёта Керри Шотт акцентирует внимание на слабом управлении, отсутствии контроля и недостаточной квалификации технических специалистов. Она указывает, что персонал скорее стремился как можно быстрее выполнить задачи, чем обеспечить качество и надежность работ, а также недостаточно консультировался с опытными коллегами.

Отдельной проблемой являются особенности работы смартфонов при перенаправлении звонков на экстренные службы во время сбоев. Многие модели устройств, особенно приобретённые за границей, не полностью поддерживают функционирование с австралийским номером 000. Optus ведёт список протестированных моделей, однако он не охватывает все возможные варианты, что усугубляет ситуацию при подобных инцидентах.

В результате проверки специалисты рекомендовали оператору пересмотреть изолированную организационную структуру подразделений, наладить более тесное сотрудничество между командами и разработать эффективные механизмы реагирования на кризисные ситуации. В отчёте технические команды, задействованные в обновлении, подверглись резкой критике: случившееся было охарактеризовано как «провал стандартной процедуры с катастрофическими последствиями».

Tagged