GLM-5V-Turbo превращает макеты и видео в фронтенд

Главное:

Z.ai выпустила GLM-5V-Turbo — первую мультимодальную модель для кодинга, которая превращает изображения, видео и текст в рабочий код.
Модель доступна через API по цене $1,2 за 1 млн входных токенов и $4 за 1 млн выходных токенов, а также бесплатно в веб-интерфейсе.
По данным Z.ai, в тесте Design2Code модель набрала 94,8 балла против 77,3 у Claude Opus 4.6.

Z.ai, ранее известная как Zhipu AI, представила GLM-5V-Turbo — свою первую мультимодальную модель для программирования. Она принимает изображения, видео и текст, а затем генерирует готовый код. Сервис уже доступен через API и в бесплатном веб-интерфейсе chat.z.ai.

Основной сценарий для новой модели — работа с визуальными интерфейсами. GLM-5V-Turbo может распознавать дизайн-макеты, скриншоты и страницы сайтов, после чего собирать по ним фронтенд-проект. В связке с Claude Code модель, как утверждает компания, умеет исследовать сайты, проходить по страницам, извлекать визуальные элементы и воспроизводить их в коде. В Z.ai этот режим называют URL = Code.

Компания заявляет, что на собственных тестах GLM-5V-Turbo обошла Claude Opus 4.6 в 9 из 14 мультимодальных бенчмарков. Самый заметный разрыв показан в Design2Code — это тест на точное воспроизведение макета в коде. Там новая модель получила 94,8 балла против 77,3 у конкурента. Также она оказалась впереди в задачах для GUI-агентов, то есть систем, которые взаимодействуют с интерфейсами приложений и сайтов, — в тестах AndroidWorld и WebVoyager. При этом в обычных задачах по текстовому программированию Claude Opus 4.6, по словам Z.ai, сохраняет лидерство.

С технической стороны Z.ai выделяет четыре обновления: новый визуальный кодировщик CogViT, обучение с подкреплением более чем на 30 типах задач, систему генерации данных для агентных сценариев и расширенный набор мультимодальных инструментов. Модель умеет делать скриншоты, выделять объекты на экране рамками и читать веб-страницы вместе с изображениями. Одновременно с релизом компания представила 10 встроенных навыков — от создания подписей к изображениям до конвертации PDF в презентации.

Выход GLM-5V-Turbo продолжает линейку специализированных версий GLM-5. Ранее Z.ai уже выпустила GLM-5-Turbo для агентных задач и GLM-5.1 для программирования. Теперь компания добавила в эту серию модель, которая умеет работать не только с текстом, но и с визуальным контентом.

Контекст

Релиз стал продолжением стратегии Z.ai по развитию семейства GLM-5: до этого компания выпустила отдельные версии для агентных сценариев и кодинга. Новая модель расширяет линейку за счёт поддержки изображений и видео.

Что это значит на практике

Разработчики и команды дизайна получают инструмент, который может быстрее переводить макеты и интерфейсы в фронтенд-код. Для компаний это способ сократить ручную работу на этапе прототипирования и переноса дизайна в продукт.

Источники

chat.z.ai — веб-интерфейс GLM-5V-Turbo

Читайте также