- Китайская компания Zhipu AI открыла доступ к модели генерации изображений GLM-Image с поддержкой text-to-image и image-to-image.
- Модель демонстрирует высокое качество прорисовки китайских иероглифов, в то время как кириллицу обрабатывает некорректно, заменяя её транслитерацией.
- GLM-Image доступна через API и имеет открытые веса на Hugging Face и GitHub, что обеспечивает удобство интеграции и использования.
Китайские разработчики из Zhipu AI представили в открытый доступ модель GLM-Image, способную генерировать изображения на основе текстовых запросов и преобразовывать одни изображения в другие. Художественные возможности системы особенно заметны при работе с китайскими иероглифами: модель уделяет большое внимание точной и аккуратной прорисовке символов, что свидетельствует о значительном объёме обучающих данных с китайскими символами.
Тем не менее, при работе с кириллицей модель испытывает значительные сложности: вместо корректного представления русских букв GLM-Image часто использует транслитерацию, что заметно снижает качество финальных изображений с текстом на русском языке. Это, вероятно, связано с отсутствием кириллицы в обучающей выборке и определяет культурный контекст генерации, который ориентирован в первую очередь на китайскую аудиторию. Например, при создании изображений с футбольной тематикой модель порой добавляет элементы традиционной китайской атрибутики, не всегда соответствующие теме.
Пользователи могут обратиться к модели через официальный сайт Zhipu AI, а также через платформу fal.ai, где предоставляется платный доступ к генерации изображений. Кроме того, GLM-Image доступна на популярных ресурсах для исследователей и разработчиков искусственного интеллекта — Hugging Face и GitHub, где размещены её обученные веса и документация к API. Такая открытость содействует интеграции GLM-Image в различные проекты, включая коммерческие, ведь модель также позиционируется как эффективный инструмент как для генерации промо-контента, так и для редактирования изображений.
Таким образом, GLM-Image от Zhipu AI представляет собой перспективный открытый инструмент с сильной специализацией на китайский язык и культуру. Несмотря на некоторые ограничения с кириллическими текстами, её возможности и открытый доступ могут заинтересовать как исследователей, так и разработчиков, стремящихся расширить применение генеративных моделей изображений.
