## Проблема интеллектуальной собственности при обучении моделей ИИ: случай Adobe и не только



Использование массивных данных для обучения систем искусственного интеллекта стало стандартной практикой в технологической индустрии, но также вызвало беспрецедентный правовой конфликт. Суть проблемы заключается в том, как эти модели приобретают свои способности: через обработку огромных наборов данных, которые во многих случаях содержат произведения, защищённые авторским правом, без явного согласия создателей.

### Adobe под прицелом: SlimLM и наследие Books3

Adobe, компания-разработчик программного обеспечения, которая с 2023 года значительно инвестирует в искусственный интеллект с такими продуктами, как Firefly, теперь сталкивается с коллективным иском, оспаривающим методы, лежащие в основе её технологии SlimLM. Элизабет Лион, автор из Орегона, специализирующаяся на руководствах по нехудожественной литературе, возглавила иск, утверждая, что её произведения были включены без разрешения в обучающие данные этой модели.

Обвинение указывает на цепочку производных наборов данных, иллюстрирующую сложность проблемы. SlimLM был предварительно обучен с использованием SlimPajama-627B, открытого набора данных, выпущенного Cerebras. Проблема в том, что SlimPajama был создан как производная обработанная версия RedPajama, который, в свою очередь, содержит Books3: колоссальную коллекцию из 191 000 книг, ставшую источником бесчисленных юридических споров. Каждый поднабор данных потенциально унаследовал уязвимости интеллектуальной собственности предыдущего, создавая цепочку ответственности, которая трудно проследить, но она существует.

### Повторяющийся паттерн во всей индустрии

То, что происходит с Adobe, — не единичный случай, а часть более широкой тенденции, которая начала рушиться под тяжестью судебных исков. В сентябре Apple столкнулась с аналогичными обвинениями в использовании защищённых авторским правом материалов для обучения Apple Intelligence, вновь с упоминанием RedPajama как источника. Параллельно Salesforce был подан иск по практически идентичным основаниям.

Самым значительным моментом стало соглашение Anthropic на сумму 1,5 миллиона долларов с авторами, которые предъявляли иск за несанкционированное использование своих произведений при обучении Claude. Это соглашение, о котором сообщили в сентябре, широко интерпретировалось как поворотный момент в судебных разбирательствах по авторским правам на данные для обучения ИИ.

### Куда движется индустрия?

Накопление коллективных исков говорит о том, что текущая модель сбора данных для обучения ИИ является юридически несостоятельной. Технологические компании сталкиваются с дилеммой: для обучения мощных моделей требуются огромные объемы данных, но легальное и компенсированное их получение ещё не имеет установленной правовой базы во многих юрисдикциях. Случай Adobe, особенно в том, как SlimLM унаследовал проблемные данные из предыдущих поднаборов, подчёркивает, как ответственность может прослеживаться через множество уровней обработки данных, даже когда компании утверждают, что используют «открытые» наборы данных.

Индустрия находится в критической точке, где юридические прецеденты начинают определять, что допустимо, а что — нет при обучении ИИ.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить