## Дилема інтелектуальної власності у тренуванні моделей ШІ: випадок Adobe та інше



Використання масивних даних для тренування систем штучного інтелекту стало стандартною практикою у технологічній індустрії, але також спричинило безпрецедентний правовий конфлікт. Суть проблеми полягає у тому, як ці моделі здобувають свої можливості: шляхом обробки величезних наборів даних, які у багатьох випадках містять твори, захищені авторським правом, без явної згоди їхніх авторів.

### Adobe під мікроскопом: SlimLM та спадщина Books3

Adobe, компанія з розробки програмного забезпечення, яка значною мірою інвестувала у штучний інтелект з 2023 року з продуктами, такими як Firefly, тепер стикається з колективним позовом, що ставить під сумнів методи, що лежать в основі її технології SlimLM. Елізабет Ліон, авторка з Орегону, яка спеціалізується на керівництвах з написання нон-фікшн, очолила позов, стверджуючи, що її твори були включені без дозволу до даних для тренування цієї моделі.

Обвинувачення вказує на ланцюг похідних наборів даних, що ілюструє складність проблеми. SlimLM був попередньо натренований за допомогою SlimPajama-627B, відкритого набору даних, запущеного Cerebras. Проблема у тому, що SlimPajama був створений як похідна оброблена версія RedPajama, який у свою чергу містить Books3: колосальну колекцію з 191 000 книг, що стала джерелом безлічі правових суперечок. Кожен піднабір даних потенційно успадкував вразливості інтелектуальної власності попереднього, створюючи ланцюг відповідальності, що є розмитим, але реальним.

### Шаблон, що повторюється у всій індустрії

Те, що трапляється з Adobe, — не ізольований випадок, а частина ширшої тенденції, яка починає руйнуватися під тягарем правових позовів. У вересні Apple зіткнулася з подібними звинуваченнями у використанні захищених авторським правом матеріалів для тренування Apple Intelligence, знову з посиланням на RedPajama як джерело. Паралельно Salesforce була подана до суду за майже ідентичними аргументами.

Найбільш значущим моментом став договір, укладений Anthropic на суму 1,5 мільйона доларів із авторами, які подавали позов через несанкціоноване використання їхніх творів у тренуванні Claude. Цей договір, повідомлений у вересні, широко інтерпретували як переломний момент у судовій справі щодо авторських прав на дані для тренування ШІ.

### Куди рухається індустрія?

Накопичення колективних позовів свідчить про те, що поточна модель збору даних для тренування ШІ є юридично незбалансованою. Технологічні компанії стикаються з дилемою: для тренування потужних моделей потрібні величезні обсяги даних, але легальна та справедлива їхня отримання ще не має встановлених правил у більшості юрисдикцій. Випадок Adobe, особливо спосіб, у який SlimLM успадкував проблемні дані з попередніх піднаборів, підкреслює, як відповідальність може простежуватися через кілька рівнів обробки даних, навіть коли компанії стверджують, що використовують "відкриті" набори даних.

Індустрія перебуває у критичному моменті, коли правові прецеденти починають визначати, що є прийнятним, а що ні у тренуванні ШІ.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити