- Энтузиаст разработал языковую модель Z80-μLM весом всего 40 КБ, работающую на 8-битном процессоре Z80.
- Модель использует 2-битное квантование и располагается в одном файле .COM с размером 40 КБ, включая весь интерфейс и веса.
- Обучение модели учитывает ограничения квантования и 16-битной арифметики процессора, что позволяет ей выполнять простые разговорные функции, например, игру “20 вопросов”.
Пользователь GitHub под ником HarryR представил проект Z80-μLM — языковую модель искусственного интеллекта, способную работать на старом 8-битном процессоре Z80 с ограниченными ресурсами. Вес модели составляет всего 40 килобайт, а вся система — включая веса, вывод и интерфейс чата — помещается в один исполнимый файл формата .COM под операционную систему CP/M.
Для достижения таких минимальных размеров и адаптации под аппаратные ограничения автор применил ряд технических решений. В частности, использовано хеширование триграмм, которое устойчиво к опечаткам, но допускает нарушение порядка слов. Кроме того, в вычислениях используется 16-битная целочисленная арифметика, а обучающие данные проходят тщательную фильтрацию и подготовку. Особое внимание уделено обучению с учётом квантования, что позволяет точно моделировать ограничения вычислительных ресурсов и поддерживать адекватное качество модели при сжатии весов до 2 бит.
Обучение проходит через параллельные проходы с квантованием чисел с плавающей точкой и целочисленных значений, а также регулярные оценки сохранения знаний после квантования. Веса постепенно адаптируются к 2-битной сетке, при этом учитываются переполнения в пределах 16-битной архитектуры Z80. Этот подход позволяет модели эффективно функционировать на устаревшем оборудовании, что исключает возможность полноценного полнотекстового общения, но открывает интересные перспективы в области компактных и специализированных ИИ-приложений.
Автор отмечает, что для генерации обучающих данных использовался сервис Claude с минимальными затратами. Z80-μLM может быть обучена на языке Python и экспортирована в формате CP/M .COM, что демонстрирует гибкость и удобство в использовании. Несмотря на относительную простоту функций, модель способна реализовывать динамику игры “20 вопросов” и имитировать лаконичное общение с элементами индивидуальности.
Таким образом, проект Z80-μLM представляет собой впечатляющий пример того, как современные идеи искусственного интеллекта можно адаптировать под очень скромные технические ограничения, что способно заинтересовать как исследователей в области ИИ, так и любителей ретро-компьютеров и DIY-разработок.
