- Google DeepMind выпустила третью версию правил безопасности для передовых ИИ-моделей.
- В правилах введён отдельный порог для «вредной манипуляции» — влияния ИИ на убеждения и поведение людей.
- DeepMind ужесточила контроль перед релизами ИИ, включая запрет доступа к «опасным» моделям внутри компании.
Компания Google DeepMind представила обновлённый, третий по счёту, вариант своего фронтирного фреймворка безопасности (Frontier Safety Framework, FSF) для управления рисками в передовых моделях искусственного интеллекта. Новый документ базируется на опыте предыдущих редакций, выпущенных в мае 2024 и феврале 2025 годов, а также на консультациях с экспертами из научной, промышленной и государственной сферы.
Главной инновацией в обновлённых правилах стала добавка отдельного порога, связанного с так называемой «вредной манипуляцией». Под этим термином понимаются случаи, когда ИИ в сложных или рискованных условиях способен систематически оказывать значимое влияние на убеждения либо поведение людей. DeepMind относит подобные возможности к критическим и подчёркивает необходимость применения к ним самых жёстких мер контроля.
Кроме того, в документе уточнены критерии оценивания других критических функций моделей. Среди них — нарушения соответствия целям человека, когда ИИ может мешать операторам управлять системой или приостанавливать её работу, а также скорости проведения исследований, если она потенциально угрожает стабильности окружения.
FSF обязывает DeepMind проводить тщательную проверку каждой модели перед её выпуском. Если в результате анализа выявляются опасные возможности, публикация откладывается до полного рассмотрения и минимизации рисков. Важно отметить, что теперь это правило распространяется и на внутренние запуски для сотрудников компании. То есть доступ к признанным опасными моделям ограничивается даже внутри DeepMind, что является шагом к повышению внутриконтрольных мер.
Компания подчёркивает, что по мере приближения к созданию искусственного общего интеллекта (AGI) она намерена продолжать усиливать стандарты безопасности и контролировать потенциально опасные сценарии использования технологий.