«Яндекс» значительно сократил расходы на обучение ИИ через оптимизацию инфраструктуры Обложка: Skyread

«Яндекс» значительно сократил расходы на обучение ИИ через оптимизацию инфраструктуры

Новости
Главное:

  • «Яндекс» значительно сократил ежегодные операционные расходы на обучение больших языковых моделей (LLM) благодаря оптимизации инфраструктуры — экономия достигла 4,8 млрд рублей.
  • Ключевым решением стала собственная библиотека YCCL, ускоряющая обмен данными между GPU и повышающая масштабируемость обучения.
  • Применение вычислений в формате FP8 и увеличение объёма батча позволили ускорить обучение моделей без снижения качества и простоев оборудования.

«Яндекс» объявил о значительном повышении эффективности обучения больших языковых моделей искусственного интеллекта без ущерба для качества и масштабов работ. Компания реализовала глубокую оптимизацию IT-инфраструктуры, что позволило снизить операционные затраты на 4,8 млрд рублей в год — порядка 400 млн рублей ежемесячно.

Одним из главных технологических нововведений стала собственная библиотека YCCL (Yet Another Collective Communication Library). Эта разработка вдвое ускорила обмен данными между графическими процессорами (GPU) во время обучения нейросетей, сократила объём передаваемой информации и перенесла управление вычислительными процессами с GPU на центральные процессоры (CPU). Библиотека масштабируется на крупные вычислительные кластеры и, по словам представителей компании, сопоставима лишь с подобными решениями ведущих мировых игроков в сфере ИИ.

Кроме того, компания внедрила использование формата вычислений FP8 с пониженной точностью, что позволило ускорить процесс обучения моделей на 30% и вдвое уменьшить объём передачи данных между узлами кластера. Дополнительное исследование показало, что увеличение размера батча (объёма данных, обрабатываемых за одну итерацию) не замедляет обучение. В результате размер батча увеличили до 16–32 млн токенов, что позволило свести к минимуму простой графических процессоров и повысить общую производительность.

Также в числе оптимизаций компании отмечены повышение стабильности IT-инфраструктуры, снижение количества аппаратных сбоев и затрат на перезапуск обучения, а также улучшение качества кода и архитектуры систем обучения искусственного интеллекта.

Стоит добавить, что в конце 2025 года «Яндекс» начал тестирование новой рекламной модели продвижения товаров и услуг в голосовом помощнике «Алиса AI». На данный момент экспериментальный формат охватывает около 5% пользователей и постепенно расширяется. Согласно информации из компании, выручка от данных форматов монетизации ИИ превысила 2 млрд рублей, при этом совокупные капитальные и операционные расходы на развитие ИИ-ассистента достигли 55 млрд рублей.

Таким образом, предпринятые «Яндексом» шаги по улучшению инфраструктуры и подходов к обучению моделей позволяют не только повысить эффективность и масштабировать ИИ-разработки, но и значительно сократить расходы, что является важным фактором в быстроразвивающейся области искусственного интеллекта.

Tagged