## 版權問題在AI模型訓練中的兩難:Adobe案例及其影響



利用大量數據來訓練人工智慧系統已成為科技產業的標準做法,但也引發了前所未有的法律衝突。問題的核心在於這些模型如何獲取其能力:透過處理龐大的數據集,而這些數據集在許多情況下包含未經原創者明示同意的受著作權保護作品。

### Adobe受到關注:SlimLM與Books3的遺產

自2023年以來,Adobe這家軟體公司在人工智慧領域投入大量資源,推出如Firefly等產品,現正面臨一場集體訴訟,質疑其背後技術SlimLM的訓練方法。專注於非小說寫作指南的俄勒岡州作家Elizabeth Lyon率先提起訴訟,聲稱她的作品未經授權被納入該模型的訓練數據中。

指控指出,這是一連串數據集的衍生鏈,展現了問題的複雜性。SlimLM的預訓練使用了Cerebras推出的開源數據集SlimPajama-627B。問題在於,SlimPajama是由RedPajama的處理衍生而來,而RedPajama又包含Books3:一個擁有191,000本書的龐大收藏,已成為多起法律爭議的源頭。每個子數據集都可能繼承前一個的著作權漏洞,形成一條模糊但真實的責任鏈。

### 行業內的重複模式

Adobe的情況並非孤例,而是更廣泛趨勢的一部分,這些趨勢已開始在法律訴訟的重壓下崩潰。九月,Apple也面臨類似指控,涉嫌使用受著作權保護的資料來訓練Apple Intelligence,同樣提及RedPajama作為資料來源。同時,Salesforce也因幾乎相同的理由被起訴。

最具代表性的是,Anthropic與多位作者達成一項150萬美元的和解協議,因為其在訓練Claude時未經授權使用了作者的作品。這份於九月公布的協議,被廣泛解讀為AI訓練資料著作權訴訟的轉折點。

### 行業的未來走向

集體訴訟的累積顯示,現行的AI訓練資料獲取模式在法律上已難以持續。科技公司面臨兩難:訓練強大模型需要大量數據,但在多數司法管轄區,合法且有補償的數據取得方式尚未建立明確框架。Adobe的案例,尤其是SlimLM繼承了前述子數據集中的問題資料,凸顯了責任追溯的複雜性,即使公司聲稱使用的是“開源”數據集。

整個產業正處於關鍵時刻,法律先例正逐步界定在AI訓練中何為可接受、何為不可接受的範圍。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言