Как команда Anthropic обеспечивает безопасность искусственного интеллекта

Главное:

В компании Anthropic создана команда Societal Impacts Team (SIT), которая изучает социальные и политические риски ИИ, выходящие за рамки стандартных угроз.
Для анализа реального использования модели Claude команда разработала инструмент Clio, позволяющий выявлять неожиданные паттерны и опасные случаи применения ИИ.
В рамках экспериментов привлекаются случайные пользователи для формирования этических принципов ИИ, а также исследуется влияние длительного взаимодействия с чат-ботом на психику человека.

Anthropic, компания с оценкой около $350 млрд и более 2000 сотрудников, создала внутреннюю команду из девяти человек — Societal Impacts Team (SIT) под руководством Дипа Гангули, ранее возглавлявшего исследования человеко-ориентированного ИИ в Стэнфорде. Главная миссия команды — исследовать и публично озвучивать социальные, экономические и политические риски, связанные с использованием их языковой модели Claude. Такой подход выходит за пределы типичных команд безопасности, которые обычно концентрируются на обнаружении мошенничества, злоупотреблений или угроз биооружием.

Для понимания реальных сценариев использования Claude SIT разработала Clio — инструмент агрегированного анализа запросов, напоминающий «Google Trends» для чат-ботов. С его помощью обнаружились многочисленные темы в запросах — от написания сценариев и решения задач до спонтанной интерпретации снов. При этом вся аналитика ведется исключительно на основе анонимных и агрегированных данных, чтобы не нарушать приватность пользователей.

Использование Clio помогло выявить ряд проблемных случаев: например, сеть ботов применяла бесплатный Claude для генерации SEO-спама, что стандартные системы безопасности Anthropic не зафиксировали. Также были зафиксированы попытки заставить модель создавать порнографический контент. Несмотря на эти инциденты, команда не стала скрывать их, а опубликовала открытый доклад, чтобы другие компании могли учесть выявленные уязвимости и повысить общую безопасность ИИ-продуктов.

Кроме технических аспектов, SIT занимается и этическими вопросами. В проекте Collective Constitutional AI около тысячи американцев помогали формировать набор принципов, которым должен следовать Claude. Эти «народные конституции» сравниваются с внутренними правилами Anthropic и служат основой для корректировок поведения моделей. Такой подход отражает понимание того, что влияние ИИ на общество требует широкого согласия, а не ограничивается взглядами только разработчиков.

В настоящее время в приоритете команды — изучение эмоциональных и психологических последствий длительного взаимодействия пользователей с Claude. Особое внимание уделяется явлению, называемому внутри компании «AI-психозом»: это случаи, когда общение с ИИ приводит к искажению восприятия реальности, появлению иллюзий «влюбленного сознательного ИИ» или усиливающейся паранойи. Понимание этих эффектов поможет делать ИИ более безопасным и ответственным.

Таким образом, Anthropic демонстрирует системный и ответственный подход к развитию искусственного интеллекта — не только стремясь создавать мощные модели, но и активно анализируя и минимизируя риски их социального влияния.