Google выпустила Gemini 3.1 Flash Live для живых диалогов

Главное:

Google представила Gemini 3.1 Flash Live — модель для голосовых и визуальных ИИ-агентов с работой в реальном времени.
Сервис уже доступен в режиме превью через Live API в Google AI Studio.
Модель поддерживает более 90 языков и лучше справляется с шумом, интонацией и резкими сменами хода разговора.

Google выпустила Gemini 3.1 Flash Live — новую ИИ-модель для живых голосовых диалогов и мультимодальных сценариев, где системе нужно одновременно слышать, понимать и отвечать без заметной паузы. Сейчас она доступна в превью через Live API в Google AI Studio. В компании говорят, что по задержке, надежности и естественности общения это заметный шаг вперед по сравнению с Gemini 2.5 Flash Native Audio.

Главный акцент сделан на разговорах в реальных условиях, а не в «стерильной» тишине. Gemini 3.1 Flash Live умеет отделять речь пользователя от фонового шума — например, телевизора, транспорта или уличных звуков — и сохранять ход беседы, даже если разговор меняется неожиданно. Это важно для голосовых помощников, которые работают в доме, машине или общественных местах.

Кроме того, модель поддерживает более 90 языков в мультимодальных диалогах в реальном времени. Она лучше улавливает акустические особенности речи: интонацию, темп и ударения. Проще говоря, системе легче понять не только слова, но и то, как именно человек их произносит, а значит — точнее поддерживать естественный разговор.

Google также привела первые примеры использования. Инструмент Stitch применяет модель для голосового управления дизайном: агент видит рабочее полотно, комментирует макеты и предлагает новые варианты. Устройство-компаньон Ato использует мультиязычные возможности модели для общения с пожилыми людьми. А студия Weekend встроила Flash Live в RPG Wit’s End, где ИИ выступает как ведущий с «театральной» подачей реплик в реальном времени.

Запуск Gemini 3.1 Flash Live продолжает разделение линейки Gemini по сценариям. У Google уже есть Flash-Lite для более дешевых массовых задач и Flash как компромисс между скоростью и качеством. Теперь в линейке отдельно выделена модель для случаев, где решают доли секунды и естественность ответа.

Контекст

Google последовательно дробит семейство Gemini на специализированные версии под разные типы нагрузки. Новый релиз дополняет эту линейку отдельной моделью для голосовых интерфейсов и визуальных агентов реального времени.

Что это значит на практике

Разработчики могут быстрее собирать голосовых помощников, которые устойчивее работают в шуме и поддерживают много языков. Для пользователей это означает более естественные беседы с ИИ в приложениях, устройствах и игровых сервисах.

Источники