- Андрей Карпатый представил nanochat — открытый проект полного цикла создания языковой модели LLM.
- Обучение модели занимает около четырёх часов на инстансе с 8 видеокартами Nvidia H100 и обходится примерно в 100 долларов при аренде облачных мощностей.
- Проект включает все необходимые инструменты — от токенизатора на Rust до веб-интерфейса для общения с моделью, и доступен на GitHub.
Известный ML-инженер и бывший разработчик OpenAI Андрей Карпатый презентовал проект nanochat — комплексное решение для создания языковых моделей большого масштаба (LLM). Этот открытый проект позволяет пользователям обучать собственную модель всего за одну команду, что значительно упрощает процесс и делает его доступным по цене.
В основе nanochat лежит полный набор инструментов, включая токенизатор, написанный на языке Rust, эффективную систему загрузки и подкачки данных FineWeb-EDU, а также набор скриптов для обучения (файнтюнинга), инференса и сбора метрик. С проектом поставляется встроенный веб-интерфейс, который позволяет немедленно взаимодействовать с обученной моделью.
Для обучения требуется вычислительный инстанс с 8 видеокартами Nvidia H100, на котором процесс займёт около четырёх часов. В среднем аренда таких мощностей в облаке стоит порядка 24 долларов за час, что делает затрату на полный цикл обучения примерно 100 долларов. Запустить обучение можно с помощью простого скрипта speedrun.sh, а для старта веб-чата предназначена команда python -m scripts.chat_web.
Проект nanochat сфокусирован на создании компактных, но при этом полноценных языковых моделей, открывающих возможности для дальнейшей доработки и интеграций. Главная цель — повышение качества моделей с бюджетом на обучение до тысячи долларов, что делает его привлекательным вариантом для исследователей и разработчиков с ограниченными ресурсами.
Код проекта доступен на платформе GitHub, где размещены все необходимые файлы, а также подробные инструкции по запуску и использованию. Таким образом, nanochat становится полезным инструментом для сообщества, стремящегося к более доступному и простому обучению языковых моделей.