GLM-4.7-Flash превосходит крупные модели и работает на ноутбуке Обложка: Skyread

GLM-4.7-Flash превосходит крупные модели и работает на ноутбуке

Новости
Главное:

  • Z.ai выпустила облегчённую версию модели GLM-4.7-Flash с 30 миллиардами параметров, из которых активны только 3 миллиарда.
  • По результатам тестов на бенчмарках модель значительно превосходит конкурентов того же класса, включая Qwen3-30B-A3B-Thinking.
  • GLM-4.7-Flash можно запускать локально на ноутбуках с хорошей производительностью, а также использовать через бесплатный API с опцией платной подписки.

Компания Z.ai представила новую версию своей крупной языковой модели GLM-4.7-Flash, которая может существенно повлиять на рынок искусственного интеллекта. Эта версия — облегчённая и работает с 30 миллиардами параметров, однако активными при обработке остаются лишь 3 миллиарда, что позволяет существенно повысить эффективность.

Модель уже протестирована на различных бенчмарках и показала впечатляющие результаты. Так, на SWE-bench Verified GLM-4.7-Flash достигла результата в 59.2%, что почти в три раза превосходит показатель конкурента Qwen3-30B-A3B-Thinking, который набрал 22%. Аналогичная тенденция наблюдается и на других тестах: в τ²-Bench (задачи с работой инструментами) новая модель демонстрирует 79.5% при 49% у Qwen, а в BrowseComp — 42.8% против 22.9%.

Особое внимание уделяется математическим задачам — здесь GLM-4.7-Flash показывает уровень, сопоставимый с гораздо более тяжёлыми моделями, на например, 91.6% на AIME 2025, что близко к показателям GPT-OSS-20B. Это свидетельствует о сбалансированности архитектуры, позволяющей достигать высоких результатов при оптимизированных ресурсах.

Пользователи уже активно испытывают локальный запуск модели, отмечая вполне приемлемую производительность. К примеру, на железе M3 Ultra (с 4-битной квантизацией) модель способна обрабатывать более 80 токенов в секунду, а на более ограниченных ноутбуках с M5 — около 40-50 токенов в секунду. Поддержка GLM-4.7-Flash уже встроена в такие платформы, как MLX, vLLM и SGLang, также открыт бесплатный API с ограничением в один параллельный запрос, дополнительно доступна платная версия с расширенными возможностями пропускной способности.

Для Z.ai этот релиз является первым масштабным продуктом после вывода компании на Гонконгскую фондовую биржу в начале января 2024 года. Несмотря на включение Z.ai в санкционный список США, компания продолжает развивать и выпускать открытые модели, способные конкурировать с западными аналогами, что подтверждает устойчивый рост и технологический потенциал организации.

Tagged