- Команда vLLM основала стартап Inferact и привлекла $150 млн финансирования с оценкой в $800 млн.
- Технология PagedAttention позволяет существенно повысить эффективность использования памяти GPU, снижая потери с 60–80% почти до нуля.
- Inferact готовит коммерческий запуск движка, упрощающего развёртывание больших языковых моделей, делая этот процесс сопоставимым с запуском serverless-базы данных.
Команда разработчиков vLLM — популярного open-source движка для запуска больших языковых моделей — объявила о создании стартапа Inferact и успешном привлечении $150 млн финансирования на посевном этапе при оценке в $800 млн. Раунд инвестиций возглавили венчурные фонды Andreessen Horowitz и Lightspeed, а также приняли участие Sequoia, Databricks Ventures и фонд канцлера Калифорнийского университета в Беркли. Стоит отметить, что код vLLM активно поддерживается сообществом из более чем 2000 контрибьюторов и интегрирован в экосистему PyTorch.
Технология, лежащая в основе vLLM, PagedAttention, управляет памятью графического процессора по аналогии с виртуальной памятью в операционных системах. Это инновационное решение снижает потери памяти с прежних 60–80% практически до нуля, что позволяет обрабатывать значительно больше запросов на том же аппаратном обеспечении. В числе известных пользователей движка — ассистент Rufus от Amazon с 250 млн пользователей, Assistant от Roblox с более чем миллиардом токенов в неделю, а также Hiring Assistant от LinkedIn.
Сооснователями Inferact выступили профессор Университета Беркли Ион Стойка, также известный как сооснователь Databricks и Anyscale, а также Вусук Квон — автор оригинальной архитектуры vLLM и соответствующей диссертации. На посту генерального директора стартапа стал Саймон Мо, один из ключевых разработчиков vLLM. Он отметил, что сейчас развертывание передовых ИИ-моделей требует специализированных команд инфраструктуры, однако в будущем это станет столь же просто, как запускать serverless-базу данных, поскольку инфраструктурная сложность будет «поглощаться» инновационными решениями компании.
Интересно, что всего неделю назад другой стартап из лаборатории Иона Стойки — RadixArk, выросший на базе проекта SGLang, привлёк финансирование с оценкой в $400 млн. Эти два крупных раунда свидетельствуют о том, что инвесторы и эксперты видят первоочередной вызов именно в оптимизации запуска и эксплуатации больших языковых моделей, а не только в их обучении — главном нынешнем направлении в развитии AI-инфраструктуры.
