- Компания xAI выпустила новую версию модели Grok 4.1 с улучшенными творческими и эмоциональными способностями.
- В слепых тестах Grok 4.1 получила высокий рейтинг, существенно превзойдя предшественников и конкурентов.
- Новая модель демонстрирует снижение количества фактических ошибок и лучше понимает сложные намерения пользователей.
Компания xAI анонсировала выпуск обновлённой версии своей языковой модели Grok 4.1, которая улучшила качество взаимодействия благодаря расширенным возможностям в области творческого мышления, эмоционального интеллекта и совместной работы. В новой версии модель лучше улавливает тонкие намерения пользователя, поддерживает более целостный стиль общения и сохраняет характерную «личность», сохраняя при этом высокую точность и надёжность.
Для достижения этих результатов разработчики применили масштабные методы обучения с подкреплением, а также оптимизировали стиль и выравнивание модели. Значимым новшеством стало использование передовых агентных моделей рассуждений в роли оценочных инструментов, что позволило автоматически улучшать качество ответов на большом объёме данных.
В период с 1 по 14 ноября 2025 года была проведена фаза тихого запуска с постепенным увеличением нагрузки на Grok 4.1. В непрерывных слепых попарных сравнениях новая модель оказалась предпочтительнее предыдущей версии в 64,78% случаев.
Grok 4.1 установил новые стандарты в рейтинге Text Arena проекта LMArena. Версия Thinking (quasarflux) достигла рейтинга 1483 Elo, заняв первое место, спустя серьезный прогресс, если сравнивать с 33 позицией Grok 4. Нерассуждающий режим (tensor) занял второе место с 1465 Elo, опережая всех конкурентов в открытом рейтинге.
Особое внимание уделялось развитию эмоционального интеллекта модели. Grok 4.1 успешно прошла тестирование на EQ-Bench3, демонстрируя навыки эмпатии и межличностного взаимодействия. Помимо этого, проверка на Creative Writing v3 подтвердила высокое качество творческого письма в различных литературных жанрах.
Отдельно xAI сосредоточилась на снижении частоты галлюцинаций — фактических неточностей в ответах. Благодаря пост-тренировке Grok 4.1 стала реже ошибаться при работе в режимах с ограниченной глубиной рассуждений. Успешно проведена проверка по FActScore, бенчмарку из 500 биографических вопросов, что подчёркивает надёжность модели в вопросах достоверности информации.
Таким образом, Grok 4.1 демонстрирует заметный шаг вперёд в области языковых моделей, сочетая творческий потенциал, эмоциональную отзывчивость и высокую точность ответов, что обещает улучшить опыт пользователей и расширить возможности применения искусственного интеллекта.
