Adobe під вогнем юридичних звинувачень: звинувачують у навчанні ШІ за допомогою піратських книг через забруднену ланцюг даних

Генеративний штучний інтелект відкрив правову скриню Пандори для технологічної індустрії. Поки Adobe робила ставку на розширення свого арсеналу інструментів на базі ШІ з продуктами, як Firefly, новий колективний позов загрожує зруйнувати основи того, як створюються ці системи. Обвинувачення є прямим: компанія з програмного забезпечення використала піратські літературні твори для тренування SlimLM, своєї серії мовних моделей, оптимізованих для документальних завдань на мобільних пристроях.

Забруднений шлях даних для тренування

Суть суперечки полягає в тому, як Adobe отримала свої дані. Згідно з позовом, поданим Елізабет Ліон, авторкою з Орегону, яка спеціалізується на нехудожніх посібниках, SlimLM був попередньо навчений за допомогою SlimPajama-627B, набору даних, випущеного Cerebras у 2023 році. Але тут є критична проблема: SlimPajama не є чистим набором даних. Він був створений шляхом обробки та маніпуляцій з RedPajama, який, у свою чергу, містить підмножину проблемних даних, відомих як Books3, масивну колекцію з 191 000 томів.

Ця ланцюг походження є тим, що зміцнює юридичну справу. Адвокати Ліон стверджують, що використання обробленої підмножини даних, яка спочатку походить з Books3, опосередковано включило тисячі захищених авторським правом творів без згоди та компенсації. Books3 був джерелом забруднення у численних ініціативах тренування ШІ, і кожен новий позов відкриває, як розробники підтримують цей цикл.

Хвиля судових процесів, що визначає індустрію

Adobe не єдина у цій юридичній дилемі. У вересні Apple зіткнулася з подібними звинуваченнями за включення захищеного авторським правом матеріалу у свою модель Apple Intelligence, знову з явним згадуванням RedPajama як джерела забруднення даних. Через кілька тижнів Salesforce отримала ідентичний юридичний удар, також пов’язаний із використанням наборів даних, що містять піратські твори.

Шаблон є незаперечним: великі технологічні компанії побудували свої системи ШІ на структурах даних, які були забруднені з самого початку. Це не випадкова недбалість, а результат індустрії, яка пріоритетизувала швидкість розробки понад юридичну ретельність.

Прецедент, що змінив гру

Найбільш значущою угодою до цього часу стала та, що уклала Anthropic, творець чатбота Claude, яка погодилася сплатити 1,5 мільярда доларів авторам, які подали на неї позов за використання піратських версій їхніх творів. Ця угода вважається переломним моментом, сигналом того, що суди серйозно ставляться до захисту авторських прав у епосі ШІ.

З кожним новим випадком, що посилається на Books3, RedPajama та їх похідні підмножини як докази порушення, індустрія стикається з неприємною реальністю: більшість сучасних моделей ШІ базуються на правово сумнівних основах. Те, що починалося як позов проти Adobe, може закінчитися каталізатором для повного переосмислення того, як розробляються та тренуються системи штучного інтелекту.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити