Nvidia интегрировала чипы Groq в стойки Vera Rubin для тысяч токенов в секунду

Главное:

NVIDIA впервые интегрировала сторонние чипы Groq в серверные стойки LPX, объединённые со стойками Vera Rubin NVL72.
Чипы Groq 3 LPU отвечают за генерацию токенов с пропускной способностью до 150 TB/s, значительно превышающей возможности GPU Vera Rubin.
Новая архитектура разделения задач (prefill — на GPU Rubin, decode — на LPU Groq) позволяет обрабатывать модели с триллионом параметров и достигать тысячи токенов в секунду на пользователя.

На конференции GTC 2026 компания NVIDIA представила инновационную серверную платформу LPX, включающую 256 специализированных процессоров Groq 3 LPU, интегрированных в существующие стойки Vera Rubin NVL72. Это первый опыт NVIDIA по использованию процессоров стороннего производителя, фирмы Groq, приобретённой компанией в конце 2025 года в сделке стоимостью $20 млрд, включая ключевых топ-менеджеров Groq.

Суть новой архитектуры заключается в эффективном разделении задач: GPU из серии Vera Rubin обрабатывают начальный этап подачи запросов (prefill), а специализированные LPU Groq занимаются вычислениями при генерации токенов (decode). Каждый чип Groq 3 обладает пропускной способностью SRAM-памяти до 150 TB/s, что почти в семь раз выше, чем у встроенной графической памяти HBM4 в GPU Rubin. Производительность одного LPU достигает 1,2 петафлопса в формате FP8, однако объём его памяти ограничен 500 МБ, что существенно меньше по сравнению с Vera Rubin. Для обеспечения высокой производительности таких моделей требуется объединять несколько сотен LPU в одной стойке, а для масштабных моделей с триллионом параметров — использовать множество таких стоек.

Высокоскоростное соединение Spectrum-X обеспечивает обмен данными между стойками LPX и NVL72 без потерь производительности. По словам вице-президента NVIDIA Яна Бака, такая связка позволяет обеспечивать обработку моделей с триллионом параметров с пропускной способностью в тысячи токенов в секунду на одного пользователя. Следует отметить, что процессоры LPU пока не поддерживают нативную работу с CUDA, поэтому функционируют как внешние ускорители в рамках платформы Vera Rubin.

Интересно, что данное решение заменило внутренний проект NVIDIA — собственный процессор Rubin CPX, который компания представляла на Computex 2025, но от которого в итоге отказалась в пользу интеграции Groq. NVIDIA рассчитывает на создание нового рынка для провайдеров инференса, которые смогут устанавливать цену до $45 за миллион сгенерированных токенов — что в три раза выше текущих тарифов OpenAI для GPT-5.4.

Следует отметить, что NVIDIA не единственная компания, экспериментирующая с разделением вычислений. Аналогичный подход на базе ускорителей Trainium 3 и SRAM-чипов Cerebras WSE-3 представила AWS. Такая практика разделения инференса на этапы и использование специализированного аппаратного обеспечения может стать новым индустриальным стандартом в области искусственного интеллекта.