Microsoft анонсировала архитектуру суперинтеллекта Fairwater

Главное:

Microsoft представила архитектуру Fairwater — новый тип датацентров Azure AI для суперкомпьютеров.
Fairwater объединяет сотни тысяч GPU NVIDIA в единую сеть с минимальными задержками, оптимизированную для обучения крупномасштабных ИИ-моделей.
Датацентры строятся с двухэтажной компоновкой и жидкостным охлаждением, создавая первую в мире планетарную AI-суперфабрику, соединяющую несколько площадок с высокой пропускной способностью.

Компания Microsoft раскрыла детали новой архитектуры датацентров под названием Fairwater, которая ориентирована на создание масштабируемой и эффективной инфраструктуры для обучения искусственного интеллекта на базе облака Azure. В рамках анонса также было объявлено о строительстве второго центра Fairwater в районе Атланты, который станет частью объединённой сети с уже существующим датацентром в Висконсине и другими ИИ-суперкомпьютерами Azure.

Суть архитектуры Fairwater состоит в устранении нынешней разобщённости специализированных кластеров, которые используются в традиционных датацентрах, и переходе к единой большой сверхмощной системе. Новые датацентры предполагают объединение сотен тысяч графических процессоров NVIDIA Blackwell (GB200 и GB300) в единую сеть, обеспечивая минимальные задержки и высокую пропускную способность. Такая конфигурация подходит для масштабного обучения моделей с триллионами параметров, от этапов предварительного обучения до тонкой настройки, обучения с подкреплением и генерации синтетических данных.

Для повышения плотности размещения оборудования и сокращения задержек кабельной связи датацентры Fairwater проектируются с двухуровневой структурой, что уменьшает длину соединений между стойками и ускорителями. Охлаждение осуществляется через замкнутый контур прямой жидкостной системы, использующей перерабатываемую воду, объём которой эквивалентен годовому потреблению около 20 частных домов. Такая система обеспечивает до 140 кВт мощности на стойку и порядка 1,36 МВт на полный ряд, позволяя стабильно поддерживать ресурсоёмкие задачи обучение моделей.

По аппаратной части одна стойка может включать до 72 GPU, связанных с помощью NVLink с пропускной способностью до 1,8 ТБайт в секунду и общим пулом памяти свыше 14 ТБ на каждый GPU. Для объединения стоек и масштабирования используется двухуровневая сеть Ethernet с пропускной способностью до 800 Гбит/с и набором оптимизаций на базе открытого программного обеспечения SONiC, что обеспечивает детальную телеметрию и эффективное управление сетевыми пакетами.

Кроме того, Microsoft реализует концепцию AI WAN — межсоединение площадок Fairwater и предыдущих ИИ-суперкомпьютеров по всей территории США с помощью тысяч километров оптоволоконных линий. Это позволяет создавать единую планетарную AI-суперфабрику, способную динамически распределять различные типы нагрузок и максимально эффективно использовать вычислительные ресурсы.

Таким образом, архитектура Fairwater представляет собой следующий шаг в развитии инфраструктуры для тренировки искусственного интеллекта, предлагая масштабируемость, гибкость и энергоэффективность, необходимые для создания и поддержки будущих поколений ИИ-моделей.