- Конференция Teх.Диалог анонсировала мастер-классы по SRE на втором дне мероприятия.
- Программа посвящена наблюдаемости, работе с инцидентами и повышению доступности высоконагруженных систем.
- Организаторы обещают практические примеры и разбор подходов, которые применяются при работе с сотнями и тысячами инцидентов.
Конференция Teх.Диалог проведет на втором дне мастер-классы по SRE — практикам, которые помогают поддерживать стабильность и доступность цифровых сервисов. Организаторы заявили, что программа рассчитана на тех, кто занимается сопровождением и обслуживанием высоконагруженных систем и регулярно сталкивается со сбоями, ростом нагрузки и последствиями релизов.
Первый блок посвятят наблюдаемости систем. Речь пойдет о том, как выстраивать мониторинг, какие метрики бизнеса, сервисов и инфраструктуры нужно отслеживать, а также как использовать трейсы и логи. Наблюдаемость в этом случае — это не просто сбор показателей, а способ вовремя заметить отклонения и понять, где именно начинается проблема.
Во втором блоке разберут инциденты и доступность сервисов. Участникам обещают объяснить, чем инцидент отличается от алерта, как быстро определить масштаб влияния сбоя и как организовать работу команды во время проблемы. Отдельно затронут действия после восстановления: когда инцидент можно считать закрытым и зачем командам нужен постмортем, то есть разбор причин и последствий после сбоя.
Третья часть программы посвящена техническим приемам повышения доступности. Организаторы планируют обсудить проектирование высокодоступных систем, роль отказоустойчивости на этапе MVP и способы подготовиться к росту нагрузки заранее — на уровне инфраструктуры и кода. По их описанию, мастер-классы дополнят доклады первого дня и будут опираться на практические кейсы.
SRE, или Site Reliability Engineering, — подход на стыке разработки и эксплуатации, который используют для повышения надежности сервисов. Темы мониторинга, инцидентов и доступности особенно востребованы там, где системы работают под высокой нагрузкой и даже короткие сбои влияют на пользователей.
Для инженеров и ИТ-команд это еще одна площадка, где можно системно разобрать работу со сбоями и мониторингом. Для бизнеса такие темы напрямую связаны с сокращением простоев и более предсказуемой работой цифровых сервисов.