- Google представила обновлённую голосовую модель Gemini 2.5 Flash Native Audio, которая превосходит конкурентов в бенчмарках сложных функциональных вызовов.
- Голосовой ассистент Mia на базе Gemini помог оформить более 14 000 ипотечных кредитов в крупной американской компании United Wholesale Mortgage.
- В Google Translate запущена бета-версия синхронного перевода речи с сохранением интонации и тембра говорящего, доступная на Android в трёх странах.
Компания Google объявила о выпуске обновлённой голосовой модели Gemini 2.5 Flash Native Audio, которая уже интегрирована в ряд продуктов компании и стала доступна для разработчиков через Google AI Studio, Vertex AI и API в режиме preview. Новая модель продемонстрировала высокие показатели в тестах на выполнение многошаговых функций, набрав в бенчмарке ComplexFuncBench Audio 71,5% по сравнению с 66,5% у аналога OpenAI GPT-Realtime. Кроме того, возросла точность следования инструкциям — до 90% против прежних 84%, а также улучшилось удержание контекста в продолжительных диалогах.
По словам представителей Google, модель Gemini 2.5 стала лучше распознавать моменты, когда необходимо вызвать внешние функции, и качественно интегрировать результаты обратно в разговор, сохраняя при этом естественность диалога. Впервые поиск Google получил нативную аудиокомпоненту на базе новой модели, что позволило отказаться от сложной цепочки из распознавания речи, обработки через LLM и синтеза речи.
Одним из первых крупных клиентов новой технологии стал крупнейший ипотечный брокер США United Wholesale Mortgage. Его технический директор Джейсон Бресслер отметил, что голосовой ассистент Mia на базе Gemini с мая 2025 года помог оформить свыше 14 000 ипотечных кредитов, облегчая работу брокеров. Также компания Shopify отметила, что пользователи голосового помощника Sidekick быстро забывают, что взаимодействуют с искусственным интеллектом, что свидетельствует о высоком качестве голосового интерфейса.
Помимо этого Google запустила бета-версию функции синхронного перевода речи в приложении Google Translate. Новая функция работает с любыми наушниками и поддерживает более 70 языков в около 2000 языковых парах. При этом перевод сохраняет интонацию, темп и тембр голоса оригинального говорящего, что существенно улучшает качество коммуникации на разных языках. Доступны два режима: непрерывное прослушивание — для лекций или фильмов, и двусторонний разговор с автоматическим переключением направления перевода в зависимости от говорящего. Сейчас бета-версия функции доступна на устройствах на Android в США, Мексике и Индии, а планируемое расширение поддержки iOS и других регионов ожидается в 2026 году.
Таким образом, обновления Google в области голосовых технологий и машинного перевода способствуют развитию естественного и эффективного взаимодействия с искусственным интеллектом в реальных бизнес-приложениях и повседневных задачах.
