Стартап Taalas встроил нейросеть в кремний и достиг 17 000 токенов в секунду Обложка: Skyread

Стартап Taalas встроил нейросеть в кремний и достиг 17 000 токенов в секунду

Новости
Главное:

  • Канадский стартап Taalas выпустил специализированный чип HC1 с интегрированной моделью Llama 3.1 8B, где веса нейросети зашиты непосредственно в кремний.
  • Чип демонстрирует производительность 17 000 токенов в секунду на пользователя, что почти в 10 раз быстрее GPU, при значительной экономии энергии и стоимости.
  • Taalas использует технологию частичной кастомизации микросхем, что позволяет выпускать готовые чипы за два месяца, и планирует масштабировать технологию на более крупные модели.

Канадский стартап Taalas объявил о выходе из стелс-режима и представил первую версию специализированного процессора HC1, в который «впаяна» нейросеть Llama 3.1 8B. В отличие от традиционных подходов, где модель загружается в память, в данном чипе веса нейросети зашиты непосредственно в транзисторном слое кремния. Такая архитектура позволила достичь скорости обработки около 17 000 токенов в секунду на одного пользователя — что в десятки раз превышает возможности современных GPU-решений, при этом стоимость производства сократилась в 20 раз, а энергопотребление — в 10 раз.

Компания основана Любишей Байичем, ветераном чипдизайна, ранее работавшим в Tenstorrent и AMD. Вместе с супругой и бывшим коллегой они внедрили радикально новую модель — абсолютную специализацию аппаратного обеспечения под конкретную модель нейросети. Для каждой ИИ-модели Taalas производит отдельный чип, изменяя лишь два верхних металлических слоя, где и сохраняются веса — это позволяет уменьшить время производства до двух месяцев, значительно быстрее стандартных шести месяцев для типичных ИИ-процессоров.

Подход Taalas также объединяет память и вычисления в одном кристалле, что исключает необходимость в дорогостоящих технологиях, таких как HBM-память, 3D-стекирование или сложные системы охлаждения. Однако текущая версия чипа использует усечённую версию модели с сильно агрессивной квантизацией (3 и 6 бит), что снижает качество по сравнению с GPU-бенчмарками. Компания позиционирует продукт как бета-сервис для разработчиков, заинтересованных в скоростном инференсе с минимальными задержками. Помимо этого, HC1 поддерживает настраиваемое контекстное окно и возможность дообучения через LoRA-адаптеры, сохраняя базовую гибкость.

Сейчас стартап привлёк финансирование в размере $219 млн, из которых потрачено около $30 млн на команду из 24 инженеров и разработку прототипа. В планах компании — выпуск следующего чипа для модели среднего размера уже весной, а к концу года — запуск продукта на базе более продвинутой платформы HC2 с передовой LLM.

Если Taalas сумеет расширить свой подход на более масштабные нейросети, это может создать сильную конкуренцию таким лидерам рынка, как Nvidia, Cerebras и Groq, предлагая не просто ускорение существующей парадигмы, а фундаментальный пересмотр архитектуры ИИ-аппаратного обеспечения.

Tagged