- Google DeepMind обновила стратегию безопасности для передовых моделей ИИ, добавив критический уровень возможностей (CCL), направленный на выявление вредоносных манипуляций.
- Расширена рамочная программа (Framework) для учёта сценариев, когда ИИ может сопротивляться попыткам пользователей контролировать или останавливать его работу.
- Внедряются новые протоколы оценки и управления рисками, а также масштабные внутренние тестирования перед внешним запуском моделей с потенциально дестабилизирующими функциями.
Компания Google DeepMind представила третью версию своей стратегии безопасности на переднем крае (Frontier Safety Framework, FSF), направленную на выявление и снижение серьёзных рисков, связанных с развитием искусственного интеллекта. В новой редакции FSF особое внимание уделяется так называемому критическому уровню возможностей (Critical Capability Level, CCL), который охватывает модели ИИ, способные на вредоносные манипуляции и систематическое изменение убеждений пользователей.
В отличие от предыдущих версий, новая рамочная программа учитывает потенциальные сценарии, в которых ИИ может начать игнорировать попытки операторов контролировать, изменять или останавливать его работу. Это отражает опасения, что с ростом автономности и возможностей моделей у пользователей может возникнуть сложность в управлении поведением ИИ. Для борьбы с такими угрозами DeepMind разрабатывает специализированные протоколы и включает их в комплексную оценку безопасности.
В рамках обновлённой FSF особое внимание уделяется профилактике дестабилизации, которая может произойти из-за ускоренного темпа исследований и разработок ИИ. Для моделей с CCL внедряются масштабные внутренние тестирования и анализ безопасности перед внешним запуском, что позволяет убедиться в том, что риски сведены к приемлемому уровню. Такой подход предполагает систематический анализ возможностей моделей и многоступенчатую оценку, обеспечивающую точное выявление критических угроз.
Генеральный директор Google DeepMind Демис Хассабис ранее предупреждал об опасностях поспешного внедрения технологий ИИ и призывал разработчиков избегать ошибок, связанных с максимизацией вовлечённости пользователей, которые были допущены на заре социальных сетей. Он подчёркивает, что искусственный интеллект — одна из самых трансформационных технологий нашего времени и требует взвешенного и ответственного подхода к своему развитию и использованию.
Таким образом, политика безопасности Google DeepMind продолжает эволюционировать, основываясь на опыте, обратной связи и актуальных исследованиях, что свидетельствует о серьёзном и продуманном подходе компании к вопросам контроля и управления опасностями, связанными с развитием искусственного интеллекта.
