Google DeepMind займётся контролем над развитием мощного ИИ

Главное:

Google DeepMind обновила стратегию безопасности для передовых моделей ИИ, добавив критический уровень возможностей (CCL), направленный на выявление вредоносных манипуляций.
Расширена рамочная программа (Framework) для учёта сценариев, когда ИИ может сопротивляться попыткам пользователей контролировать или останавливать его работу.
Внедряются новые протоколы оценки и управления рисками, а также масштабные внутренние тестирования перед внешним запуском моделей с потенциально дестабилизирующими функциями.

Компания Google DeepMind представила третью версию своей стратегии безопасности на переднем крае (Frontier Safety Framework, FSF), направленную на выявление и снижение серьёзных рисков, связанных с развитием искусственного интеллекта. В новой редакции FSF особое внимание уделяется так называемому критическому уровню возможностей (Critical Capability Level, CCL), который охватывает модели ИИ, способные на вредоносные манипуляции и систематическое изменение убеждений пользователей.

В отличие от предыдущих версий, новая рамочная программа учитывает потенциальные сценарии, в которых ИИ может начать игнорировать попытки операторов контролировать, изменять или останавливать его работу. Это отражает опасения, что с ростом автономности и возможностей моделей у пользователей может возникнуть сложность в управлении поведением ИИ. Для борьбы с такими угрозами DeepMind разрабатывает специализированные протоколы и включает их в комплексную оценку безопасности.

В рамках обновлённой FSF особое внимание уделяется профилактике дестабилизации, которая может произойти из-за ускоренного темпа исследований и разработок ИИ. Для моделей с CCL внедряются масштабные внутренние тестирования и анализ безопасности перед внешним запуском, что позволяет убедиться в том, что риски сведены к приемлемому уровню. Такой подход предполагает систематический анализ возможностей моделей и многоступенчатую оценку, обеспечивающую точное выявление критических угроз.

Генеральный директор Google DeepMind Демис Хассабис ранее предупреждал об опасностях поспешного внедрения технологий ИИ и призывал разработчиков избегать ошибок, связанных с максимизацией вовлечённости пользователей, которые были допущены на заре социальных сетей. Он подчёркивает, что искусственный интеллект — одна из самых трансформационных технологий нашего времени и требует взвешенного и ответственного подхода к своему развитию и использованию.

Таким образом, политика безопасности Google DeepMind продолжает эволюционировать, основываясь на опыте, обратной связи и актуальных исследованиях, что свидетельствует о серьёзном и продуманном подходе компании к вопросам контроля и управления опасностями, связанными с развитием искусственного интеллекта.