Разработчиков российского ИИ могут обязать предоставлять данные для обучения

Главное:

В России рассматривается инициатива об обязательном раскрытии данных, использованных при обучении отечественных моделей искусственного интеллекта.
Разработчики должны будут предоставлять подробную информацию о датасетах: название, дату создания, формат, объём и происхождение.
Обсуждается создание специального реестра данных и критерии для определения «национального» и «доверенного» ИИ, при этом участники рынка отмечают сложности с внедрением новых требований.

В России ведутся обсуждения инициативы, которая может ввести обязательное раскрытие сведений о наборах данных, используемых для обучения и тестирования отечественных моделей искусственного интеллекта. Согласно информации от «Ведомостей», эта мера рассматривается в рамках подготовки нового законопроекта, инициируемого Минцифры, с целью повышения прозрачности и формирования стандартов отчетности в области ИИ.

Одной из ключевых особенностей предлагаемого регулирования станет требование к разработчикам указывать такие детали, как название датасета, дата его создания, назначение, формат, объём и происхождение. Обсуждается также возможность создания централизованного реестра российских наборов данных или специализированного реестра в сфере ИИ. Напомним, что ранее Минцифры анонсировало планы по созданию реестра «доверенного» ИИ для объектов критической инфраструктуры, однако на данный момент в стране нет официальных реестров ИИ-технологий.

Законопроект, который сейчас находится на стадии проработки, будет регулировать вопросы критериев «российского» ИИ, маркировку ИИ-контента, а также авторское право и ответственность за использование технологии. В документе предусмотрен гибкий подход, включая возможность признания использования ИИ при совершении преступлений отягчающим обстоятельством.

В целом, отрасль положительно оценивает направленность инициативы, хотя эксперты отмечают ряд проблем. Например, в Альянсе в сфере искусственного интеллекта указывают, что подробное описание всех датасетов может создать чрезмерную нагрузку на разработчиков и привести к формальному, лишенному практического смысла перечню. Вместе с тем отрасль готова обсуждать вопросы ответственности и защищенности при работе с данными.

Среди экспертов есть и положительные оценки: Дмитрий Юдин из Cloud.ru считает, что раскрытие данных повысит уровень доверия к моделям и поможет выработать единые стандарты отчетности. Вместе с тем, он предупреждает, что обязательства по раскрытию могут замедлить развитие проектов за счёт дополнительных административных хлопот.

Заместитель исполнительного директора Центра компетенций НТИ по большим данным МГУ им. М. В. Ломоносова Гарник Арутюнян обращает внимание, что такие требования могут коснуться также иностранных компаний, присутствующих на российском рынке, включая OpenAI и Microsoft, которые, скорее всего, не согласуются с нововведениями.

Эксперты также отмечают, что инициатива может стать драйвером для формирования коммерческого рынка данных. В настоящее время многие разработчики используют открытые источники бесплатно, что создает юридические риски, включая возможность утечек персональных данных и нарушения авторских прав. Европейский AI Act уже предусматривает раскрытие источников данных, а крупные поставщики контента, как Wikimedia и Reddit, переходят к платным соглашениям с разработчиками ИИ.

Практика конфликтов вокруг прав на данные уже проявилась в судебных исках в зарубежных юрисдикциях, например, иск The New York Times к Microsoft и OpenAI в 2023 году за незаконное использование материалов. По мнению экспертов, подобные прецеденты могут появиться и в России с введением обязательного раскрытия данных.

В итоге эксперты сходятся во мнении, что обсуждаемая инициатива актуальна и важна для регулирования ИИ, однако реализация потребует тщательного баланса между необходимостью прозрачности и защитой коммерческих и интеллектуальных интересов участников рынка, а также не должна препятствовать развитию технологий и инноваций.