廣場
最新
熱門
新聞
我的主頁
發布
RetailTherapist
2026-01-12 09:01:15
關注
## 版權問題在AI模型訓練中的兩難:Adobe案例及其影響
利用大量數據來訓練人工智慧系統已成為科技產業的標準做法,但也引發了前所未有的法律衝突。問題的核心在於這些模型如何獲取其能力:透過處理龐大的數據集,而這些數據集在許多情況下包含未經原創者明示同意的受著作權保護作品。
### Adobe受到關注:SlimLM與Books3的遺產
自2023年以來,Adobe這家軟體公司在人工智慧領域投入大量資源,推出如Firefly等產品,現正面臨一場集體訴訟,質疑其背後技術SlimLM的訓練方法。專注於非小說寫作指南的俄勒岡州作家Elizabeth Lyon率先提起訴訟,聲稱她的作品未經授權被納入該模型的訓練數據中。
指控指出,這是一連串數據集的衍生鏈,展現了問題的複雜性。SlimLM的預訓練使用了Cerebras推出的開源數據集SlimPajama-627B。問題在於,SlimPajama是由RedPajama的處理衍生而來,而RedPajama又包含Books3:一個擁有191,000本書的龐大收藏,已成為多起法律爭議的源頭。每個子數據集都可能繼承前一個的著作權漏洞,形成一條模糊但真實的責任鏈。
### 行業內的重複模式
Adobe的情況並非孤例,而是更廣泛趨勢的一部分,這些趨勢已開始在法律訴訟的重壓下崩潰。九月,Apple也面臨類似指控,涉嫌使用受著作權保護的資料來訓練Apple Intelligence,同樣提及RedPajama作為資料來源。同時,Salesforce也因幾乎相同的理由被起訴。
最具代表性的是,Anthropic與多位作者達成一項150萬美元的和解協議,因為其在訓練Claude時未經授權使用了作者的作品。這份於九月公布的協議,被廣泛解讀為AI訓練資料著作權訴訟的轉折點。
### 行業的未來走向
集體訴訟的累積顯示,現行的AI訓練資料獲取模式在法律上已難以持續。科技公司面臨兩難:訓練強大模型需要大量數據,但在多數司法管轄區,合法且有補償的數據取得方式尚未建立明確框架。Adobe的案例,尤其是SlimLM繼承了前述子數據集中的問題資料,凸顯了責任追溯的複雜性,即使公司聲稱使用的是“開源”數據集。
整個產業正處於關鍵時刻,法律先例正逐步界定在AI訓練中何為可接受、何為不可接受的範圍。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
讚賞
按讚
留言
轉發
分享
留言
0/400
留言
暫無留言
熱門話題
查看更多
#
Gate藍龍蝦重磅上線
6.57萬 熱度
#
伊朗在霍爾木茲海峽布設水雷
10.56萬 熱度
#
原油價格回落
17.02萬 熱度
#
Meta宣布收購Moltbook
1.2萬 熱度
#
沃什出任美聯儲主席提名受阻
1.24萬 熱度
熱門 Gate Fun
查看更多
Gate Fun
KOL
最新發幣
即將上市
成功上市
1
spiritual
灵石
市值:
$0.1
持有人數:
1
0.00%
2
slave
天选打工人
市值:
$0.1
持有人數:
1
0.00%
3
poison
reverend insanity
市值:
$2417.24
持有人數:
1
0.00%
4
NEX
Nexus
市值:
$2450.95
持有人數:
2
0.06%
5
goushi
狗屎
市值:
$2420.68
持有人數:
0
0.00%
置頂
Gate 廣場內容挖礦獎勵繼續升級!無論您是創作者還是用戶,挖礦新人還是頭部作者都能贏取好禮獲得大獎。現在就進入廣場探索吧!
創作者享受最高60%創作返佣
創作者獎勵加碼1500USDT:更多新人作者能瓜分獎池!
觀眾點擊交易組件交易贏大禮!最高50GT等新春壕禮等你拿!
詳情:https://www.gate.com/announcements/article/49802
網站地圖
## 版權問題在AI模型訓練中的兩難:Adobe案例及其影響
利用大量數據來訓練人工智慧系統已成為科技產業的標準做法,但也引發了前所未有的法律衝突。問題的核心在於這些模型如何獲取其能力:透過處理龐大的數據集,而這些數據集在許多情況下包含未經原創者明示同意的受著作權保護作品。
### Adobe受到關注:SlimLM與Books3的遺產
自2023年以來,Adobe這家軟體公司在人工智慧領域投入大量資源,推出如Firefly等產品,現正面臨一場集體訴訟,質疑其背後技術SlimLM的訓練方法。專注於非小說寫作指南的俄勒岡州作家Elizabeth Lyon率先提起訴訟,聲稱她的作品未經授權被納入該模型的訓練數據中。
指控指出,這是一連串數據集的衍生鏈,展現了問題的複雜性。SlimLM的預訓練使用了Cerebras推出的開源數據集SlimPajama-627B。問題在於,SlimPajama是由RedPajama的處理衍生而來,而RedPajama又包含Books3:一個擁有191,000本書的龐大收藏,已成為多起法律爭議的源頭。每個子數據集都可能繼承前一個的著作權漏洞,形成一條模糊但真實的責任鏈。
### 行業內的重複模式
Adobe的情況並非孤例,而是更廣泛趨勢的一部分,這些趨勢已開始在法律訴訟的重壓下崩潰。九月,Apple也面臨類似指控,涉嫌使用受著作權保護的資料來訓練Apple Intelligence,同樣提及RedPajama作為資料來源。同時,Salesforce也因幾乎相同的理由被起訴。
最具代表性的是,Anthropic與多位作者達成一項150萬美元的和解協議,因為其在訓練Claude時未經授權使用了作者的作品。這份於九月公布的協議,被廣泛解讀為AI訓練資料著作權訴訟的轉折點。
### 行業的未來走向
集體訴訟的累積顯示,現行的AI訓練資料獲取模式在法律上已難以持續。科技公司面臨兩難:訓練強大模型需要大量數據,但在多數司法管轄區,合法且有補償的數據取得方式尚未建立明確框架。Adobe的案例,尤其是SlimLM繼承了前述子數據集中的問題資料,凸顯了責任追溯的複雜性,即使公司聲稱使用的是“開源”數據集。
整個產業正處於關鍵時刻,法律先例正逐步界定在AI訓練中何為可接受、何為不可接受的範圍。