- Разработчик Anemll запустил модель Qwen 3.5 с 397 млрд параметров на iPhone 17 Pro.
- Для работы понадобился внешний SSD, а скорость генерации составила 0,6 токена в секунду.
- Проект использует open-source-решение Flash-MoE, которое подгружает веса модели на GPU потоково.
Разработчик под ником Anemll показал запуск языковой модели Qwen 3.5 на iPhone 17 Pro. Демонстрация уже состоялась: модель стартовала на смартфоне при подключённом внешнем SSD, с которого подгружались её веса. Авторы прямо говорят, что это не сценарий для повседневной работы, а технический эксперимент, который показывает пределы мобильного железа.
Для теста использовали Qwen3.5-397B-A17B — модель класса MoE, то есть с архитектурой, где при генерации ответа задействуется не вся сеть сразу, а только часть параметров. Это снижает нагрузку по сравнению с обычными крупными моделями, но требования всё равно остаются очень высокими. Даже в 4-битном квантовании, когда веса модели сжимаются ради экономии памяти, для такой системы нужно около 200 ГБ оперативной памяти.
На этом фоне iPhone 17 Pro с 12 ГБ ОЗУ не мог бы запустить модель обычным способом. Поэтому в проекте задействовали Flash-MoE — открытое решение для потоковой загрузки весов прямо на GPU. Проще говоря, модель не хранится целиком в памяти устройства, а подаётся частями по мере работы. Именно это и позволило добиться запуска на смартфоне.
Производительность при этом оказалась очень низкой: около 0,6 токена в секунду, то есть примерно одно слово каждые 2–3 секунды. Для сравнения, на MacBook Pro с M3 Max и 48 ГБ памяти та же модель выдавала 4,3 токена в секунду. Разработчики также уточнили, что код для инференса, то есть для выполнения модели без обучения, писали с помощью Claude Code, а сама Qwen 3.5 была квантована относительно мягко. По их словам, дальнейшая оптимизация может ускорить работу в несколько раз.
Запуск больших языковых моделей всё чаще упирается не только в вычислительную мощность, но и в объём памяти. Подход с потоковой подгрузкой весов показывает, что даже устройства с сильно ограниченной ОЗУ можно приспособить для таких экспериментов.
Для обычных пользователей такой запуск пока не даёт удобного способа работать с крупной ИИ-моделью на смартфоне: скорость слишком низкая, а без внешнего накопителя система не запускается. Зато для разработчиков это наглядная проверка того, как можно обходить ограничения памяти на мобильных устройствах.