Perplexity обогнал Google и OpenAI и запустил «совет моделей»

Главное:

Perplexity обновила Deep Research, интегрировав Claude Opus 4.5 и достигла рекордного результата в Google DeepMind Deep Search QA — 79,5%.
Компания представила открытый бенчмарк DRACO для оценки качества глубинного поиска на 100 задачах в 10 доменах, в котором Perplexity опередила конкурентов.
Запущен новый режим Model Council, объединяющий ответы трех моделей — Claude Opus 4.5, GPT-5.2 и Gemini 3.0 — для выдачи обобщенного результата.

Компания Perplexity анонсировала сразу два важных обновления своей технологии глубокого поиска. Во-первых, появилась продвинутая версия Deep Research, построенная на базе модели Claude Opus 4.5 от Anthropic. Новая версия показала лучшие показатели в сравнительном рейтинге Google DeepMind Deep Search QA — 79,5%, обогнав не только конкурентные системы Moonshot K2.5 (77,1%) и GPT-5.2 (71,3%), но и даже оригинальную модель Opus 4.5 без доработок Perplexity (76,1%) и Gemini Deep Research Agent от Google (66,1%). Это свидетельствует о значительной оптимизации и усовершенствовании подходов к глубокому поиску, реализованных в продукте.

Вторым важным релизом стала функция Model Council — «совет моделей». В этом режиме один запрос одновременно отправляется на три разные модели: Claude Opus 4.5, GPT-5.2 и Gemini 3.0. Результаты анализируются моделью-синтезатором, которая разрешает разногласия и формирует единый, согласованный ответ. Такой механизм позволяет объединить сильные стороны разных ИИ-систем и минимизировать их слабости. По сути, Perplexity создала внутри своего сервиса кооперативное взаимодействие крупнейших игроков рынка искусственного интеллекта.

Кроме того, Perplexity официально представила новый открытый бенчмарк DRACO — Deep Research Accuracy, Completeness and Objectivity. Включающая 100 задач из 10 различных сфер, таких как финансы, медицина, право и шопинг, эта система оценки опирается примерно на 40 экспертных критериев. В тестировании Perplexity Deep Research достиг фото 67,15%, что заметно опережает Google Gemini Deep Research (58,97%) и OpenAI Deep Research (52,06%). Особенно высокие результаты получены в областях права (89,4%) и академических исследований (82,4%). Публикация такого стандартизированного бенчмарка открывает новые возможности для объективной оценки эффективности поисковых ИИ-систем.

Обновления уже доступны пользователям с подпиской Max, а версия Advanced Deep Research вскоре появится для подписчиков Pro. В дополнение, в API Perplexity обнаружено упоминание предстоящей модели Claude Opus 4.6 — что может свидетельствовать о продолжающемся развитии технологий Anthropic, вместо ожидавшегося релиза Sonnet 5.

Таким образом, Perplexity укрепляет позиции в области глубокого поиска и одновременно экспериментирует с форматами объединения мощностей различных моделей, что может задать новые стандарты для индустрии искусственного интеллекта.