
Разработчиков отечественных моделей искусственного интеллекта (ИИ) могут обязать раскрывать сведения о наборах данных, на которых обучалась или тестировалась их нейросеть. Такая инициатива обсуждается отраслевыми ассоциациями, компаниями в области ИИ и профильным регулятором в рамках проработки законопроекта по ИИ, рассказали «Ведомостям» два участника обсуждения из различных компаний.
Предполагается, что разработчики должны будут предоставлять достаточно подробный список сведений, сообщил источник «Ведомостей» в одном из разработчиков в сфере ИИ. В одной из рабочих версий законопроекта об ИИ (разрабатывается Минцифры) говорится, что разработчик модели должен будет указать наименование набора данных, дату его создания, назначение использования, формат, объем и происхождение. Где будет агрегироваться вся эта информация, пока не определено. Среди обсуждаемых мер – создание отдельного реестра отечественного ИИ или создание реестра отечественных наборов данных, добавил собеседник.
В июне 2025 г. заместитель министра цифрового развития Александр Шойтов сообщил о том, что Минцифры займется разработкой реестра доверенного ИИ для использования в объектах критической инфраструктуры, писал Cnews. Судьба проекта не известна. Постановлением правительства от декабря 2025 г. Минцифры внесло требования к программно-аппаратным комплексам для ИИ для попадания в реестр отечественного ПО. Иных реестров для ИИ-технологий в России пока нет.
Первоначально инициатива была предметом обсуждений в ходе подготовки законопроекта об ИИ, рассказал один из собеседников «Ведомостей». По словам источника в профильной IT-ассоциации, в части требований к моделям пока есть загвоздка с формулировками точных определений, что считать национальным и доверенным, и какие должны быть критерии. Но в текущую версию законопроекта об ИИ это предложение не вошло, так как документ носит рамочный характер и такие детали в нем не учитываются.
Представитель Минцифры также подтвердил «Ведомостям», что в текущей версии законопроекта нет положений о раскрытии данных, на которых обучаются модели ИИ.
Правительство РФ прорабатывает законопроект по регулированию ИИ, говорил журналистам 6 февраля представитель аппарата вице-премьера РФ Дмитрия Григоренко. В нем будут определены критерии «российской» нейросети, авторское право, маркировка ИИ-контента, права, обязанности и ответственность. Правительство предлагает придерживаться гибкого подхода. Например, предотвратить использование ИИ для совершения преступлений и признать использование технологии отягчающим обстоятельством при совершении правонарушений. Это важно прежде всего для защиты интересов граждан.
Представитель Альянса в сфере ИИ (входят «Сбер», «Яндекс», VK, Т-банк, МТС и другие компании) уточнил, что полное и точное описание подобного массива данных в реестровом формате либо потребует ресурсов, несоразмерных результату, либо сведется к формальному перечислению без аналитической ценности.




С 2025 г. действует национальный проект «Экономика данных», частью которого является федеральный проект «Искусственный интеллект». В рамках него государство направляет гранты на поддержку проектов в сфере ИИ и реализует работу научно-исследовательских центров. В том же году Банк России представил кодекс этики в сфере разработки и применения ИИ на финансовом рынке. В нем заложены пять принципов: человекоцентричность, справедливость, прозрачность, безопасность и ответственное управление рисками. Сам по себе кодекс носит рекомендательный характер.
Он также уточнил, что сама инициатива пока не обсуждалась на площадке Альянса в сфере ИИ, но подчеркнул, что отрасль готова к содержательному разговору об ответственном использовании данных в форматах, которые действительно работают на практике.
Из плюсов инициативы – повышение доверия к ИИ-моделям и возможность независимой оценки их качества, а также повышение самой дисциплины работы с данными и формирование единых стандартов отчетности и сопоставимости моделей, считает руководитель направления ИИ Cloud.ru Дмитрий Юдин. Риски же заключаются в том, что такая инициатива создает существенную нагрузку на разработчиков и провайдеров, особенно при регулярных обновлениях моделей, сетует эксперт. Темпы развития технологий всегда будут опережать законодательство, а это приведет к замедлению внедрения сервисов, резюмировал он.
Если регулирование будет распространяться на модели, вводимые в оборот или используемые в публичных сервисах на территории РФ, формально требования могут затронуть не только российских игроков вроде «Яндекса» и «Сбера», но и иностранных разработчиков, включая OpenAI, Microsoft, DeepSeek и Perplexity AI, которые вряд ли станут их соблюдать, рассуждает заместитель исполнительного директора ЦК НТИ по большим данным МГУ Гарник Арутюнян.
Инициатива раскрытия массивов данных при этом очень своевременная, полагает исполнительный директор АНО «Координационная лаборатория» Мария Базлуцкая. Сейчас существует проблема дефицита высококачественных, юридически очищенных и структурированных массивов для обучения или дообучения моделей, что существенно усложняет работу над развитием ИИ, утверждает она. В США, например, на государственном уровне уже приветствуют избавление от так называемых data silos – изолированных наборов данных, которые не использовались или недоступны для ИИ-агентов, с целью улучшить работу ИИ, приводит пример она.
В то же время подробное раскрытие состава данных может затронуть конкурентные преимущества разработок, предупреждает Базлуцкая. Для крупных моделей с миллионами и больше источников раскрытие может стать технически и организационно затруднительным, что замедлит выход решения на рынок, говорит она. Главный вопрос – будут эти игроки готовы делиться подобной информацией или им проще будет уйти с рынка, сделав сервис и вовсе недоступным, рассуждает она.
Представители Сбербанка, «Яндекса» и MWS (принадлежит оператору МТС, разрабатывает ИИ) воздержались от комментариев, перенаправив запрос в Альянс в сфере ИИ. Представитель Т-банка не ответил на запрос «Ведомостей».
Раскрытие информации о наборах данных, на которых обучались нейросети, будет способствовать формированию коммерческого рынка данных. Сейчас разработчики нейросетей используют открытые и все доступные им данные для обучения своих моделей, как правило, бесплатно и без разрешения их владельцев, сетует заведующий кафедрой искусственного интеллекта Финансового университета Михаил Коротеев. Такая ситуация стимулирует развитие ИИ, но, по сути, остается серой зоной в регуляции ИИ, что порождает конфликты интересов и создает риски утечек чувствительных и персональных данных, использования личного образа и копирования авторского почерка, перечисляет он.
В том случае, если компании действительно обяжут раскрывать информацию об источниках данных, необходимо будет следом разработать механизм гибких добровольных лицензионных соглашений, рекомендует Коротеев. Например, европейский AI Act обязывает разработчиков ИИ раскрывать источники данных для обучения моделей. Крупные поставщики данных, например Wikimedia и Reddit, выстраивают индивидуальные соглашения с крупными разработчиками ИИ о возмездном и правомерном использовании данных, говорит он.
Не все данные для обучения нейросетей имеют одинаковую стоимость, делает оговорку руководитель Института искусственного интеллекта ИТМО Александр Бухановский. В интернете достаточно много данных со свободным доступом – например, новостные ленты или данные, которые уже стали народным достоянием, такие как литературные или художественные произведения, перечисляет он. Поэтому логично, что для систем ИИ все эти данные могут использоваться бесплатно, так как это будет способствовать их большему распространению, говорит эксперт. С точки зрения расценок можно опираться на существующие рынки, сказал сооснователь Promobot Олег Кивокурцев. Например, аналитические исследования могут стоить десятки тысяч долларов, банки диссертаций – сотни тысяч рублей, а литературные произведения – сотни рублей, говорит он.
Случаи, когда авторы данных оказались недовольны использованием их данных крупными компаниями, уже были, напоминает руководитель проектов компании «Интеллектуальная аналитика» Тимофей Воронин. Например, в 2023 г. американская газета The New York Times (NYT) обвинила Microsoft и OpenAI в незаконном использовании защищенных авторским правом статей, расследований и других материалов издания для обучения ИИ, говорит он. Помимо этого к иску присоединились и другие издания, а уже в 2024–2025 гг. иски последовали и от других журналистов. В конце 2025 г. федеральный суд США обязал OpenAI передать NYT 20 млн анонимизированных текстовых файлов, в которых были использованы статьи NYT, подчеркнул Воронин.
В случае если подобная инициатива будет принята и вскроются случаи незаконного использования материалов без авторского права на него, не исключено, что такие судебные прецеденты появятся и в России, считает он. Компаниям будет необходимо гораздо тщательнее отбирать ресурсы для обучения моделей, покупать права не тексты изданий или других компаний или же решать вопросы авторских прав в рамках договоров, резюмировал Воронин.