ChatGPT, Gemini и Grok не прошли тесты по распознаванию видео от Sora

Главное:

Чат-боты ChatGPT, Gemini и Grok допускали ошибки в распознавании сгенерированных видео Sora в 78-95% случаев.
Даже видео с водяными знаками часто не распознавались корректно — Grok ошибался до 30%, ChatGPT — до 7,5%, Gemini не ошибался с маркированными роликами.
NewsGuard использовала бесплатный сервис EZremove.ai для удаления водяных знаков на половине протестированных видео, после чего точность распознавания заметно снизилась.

Компания NewsGuard провела серию тестов, в которых проверяла способность популярных чат-ботов — ChatGPT от OpenAI, Gemini от Google и Grok от xAI — выявлять видеофейковые материалы, созданные с помощью нейросети Sora. Результаты показали значительные проблемы с определением подлинности: чат-боты ошибались в 78-95% случаев. Лучшие показатели продемонстрировал Gemini, ошибаясь в 78% попыток, Grok оказался наименее точным с 95% ошибками, ChatGPT показал 92,5% неточностей.

Тестовые видео содержали водяные знаки — небольшие логотипы с надписью Sora, которые периодически появлялись на изображении. Несмотря на это, два чат-бота допускали существенные ошибки при распознавании таких роликов: Grok не смог корректно проверить достоверность видео с водяным знаком в 30% случаев, ChatGPT — в 7,5%. При этом Gemini справился без ошибок с видео, содержащими маркировку.

Компания NewsGuard провела тестирование, используя удаление водяных знаков с помощью бесплатного инструмента EZremove.ai, применённого к 20 роликам из 40. Удаление водяных знаков существенно снизило качество распознавания AI-чатботами, что подчеркивает значимость таких отметок для проверки подлинности.

Кроме технических аспектов, чат-боты демонстрировали неуклонную склонность подтверждать ложные сообщения даже при наличии зримых признаков подделки. Так, исходное видео с задержанием девочки на границе США и Мексики было ошибочно признано подлинным, опираясь на упоминание новостных источников. Другой материал с работником авиакомпании Delta, угрожающим пассажиру из-за кепки с политическим слоганом, все три ИИ также неверно жили как настоящий.

В ряде случаев модели указывали на водяной знак и другие признаки генерации — искажения, неестественное освещение — что вероятно способствовало более внимательному анализу. Тем не менее, результаты демонстрируют, что современные чат-боты не могут полностью полагаться на ИИ для надежного выявления сгенерированного видеоконтента.

Стоит отметить, что Google позиционирует Gemini как продукт, способный распознавать материалы, созданные ИИ, тогда как OpenAI и xAI не делают подобных заявлений о своих чат-ботах. Несмотря на слабые показатели в тестах с видео Sora, Gemini лучше справился с видео от другого генератора — Nano Banana Pro, особенно когда водяные знаки были удалены.

В заключение эксперты NewsGuard отметили, что модели, лежащие в основе чат-ботов, не обучены последовательно предупреждать пользователей о том, что использование искусственного интеллекта для проверки достоверности контента не является надежным методом, что подчеркивает необходимость осторожного и комплексного подхода к верификации.