Adobe陷入法律風暴：被指控利用受污染的數據鏈，使用盜版書籍訓練人工智慧

2026-01-12 09:03:02

生成式人工智慧已為科技產業打開了一個法律潘朵拉盒。在 Adobe 致力於擴展其由 AI 驅動的工具組合，如 Firefly 時，一場新的集體訴訟威脅著拆解這些系統建構的基礎。指控直指：該軟體公司利用盜版文學作品來訓練 SlimLM，其系列語言模型專為行動裝置上的文件任務優化。

訓練資料的污染之路

爭議的核心在於 Adobe 如何取得其資料。根據由俄勒岡州作家 Elizabeth Lyon 提出的一份訴狀，SlimLM 是在使用 Cerebras 於 2023 年推出的 SlimPajama-627B 資料集進行預訓練的。但這裡有一個關鍵問題：SlimPajama 並非一個純淨的資料集。它是通過處理和操縱 RedPajama 而來，而 RedPajama 又包含一個有問題的子集，稱為 Books3，這是一個包含 191,000 冊大量資料的集合。

這個衍生鏈條正是法律案件的堅實根基。Lyon 的律師辯稱，通過使用一個經過處理的資料子集，該子集原本來自 Books3，Adobe 間接地將數千件受著作權保護的作品納入，未經同意或補償。Books3 一直是多個 AI 訓練計畫中的污染源，每一場新訴訟都揭示開發者如何延續這個循環。

一波定義產業的訴訟浪潮

Adobe 並非孤軍作戰。在九月，Apple 也面臨類似指控，因其將受著作權保護的資料納入其 Apple Intelligence 模型，同樣明確提及 RedPajama 作為資料污染來源。數週後，Salesforce 也遭遇了類似的法律打擊，同樣涉及使用含有盜版作品的資料集。

這個模式是不爭的事實：大型科技公司建立的 AI 系統，都是建立在從源頭就受到污染的資料結構之上。這不是偶然的疏忽，而是產業優先追求開發速度而忽視法律審慎的結果。

改變遊戲規則的先例

迄今為止最具代表性的和解是在 Anthropic（Claude 聊天機器人創建者）同意支付 15 億美元給那些因其使用盜版作品而提起訴訟的作者後達成的。這一協議被視為轉折點，象徵法院開始重視在 AI 時代的著作權保護。

每當有新案件引用 Books3、RedPajama 及其衍生子集作為侵權證據時，產業都面臨一個不舒服的現實：目前大多數 AI 模型都建立在法律存疑的基礎上。這場針對 Adobe 的訴訟，可能最終成為重新思考 AI 系統開發與訓練方式的催化劑。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
按讚
留言
轉發
分享

留言

0/400

暫無留言

熱門話題
查看更多
#
GateforAI重磅上線
985.35萬熱度
#
加密市場小幅下跌
462.02萬熱度
#
黃金白銀走高
9.27萬熱度
#
美伊局勢影響
20.32萬熱度
#
AI板塊逆勢上漲
15.03萬熱度

熱門 Gate Fun
查看更多

1
熊大快跑
熊大快跑
市值:$2379.31持有人數:1
0.00%
2
ibox
ibox起飞
市值:$2386.2持有人數:1
0.00%
3
伊朗货币
伊朗货币
市值:$2412.48持有人數:2
0.07%
4
YL
伊朗🇮🇷
市值:$0.1持有人數:0
0.00%
5
🙂
ETH
市值:$2427.58持有人數:1
0.00%

Adobe陷入法律風暴：被指控利用受污染的數據鏈，使用盜版書籍訓練人工智慧

訓練資料的污染之路

一波定義產業的訴訟浪潮

改變遊戲規則的先例

熱門話題

GateforAI重磅上線

加密市場小幅下跌

黃金白銀走高

美伊局勢影響

AI板塊逆勢上漲

熱門 Gate Fun

熊大快跑

熊大快跑

ibox

ibox起飞

伊朗货币

伊朗货币

YL

伊朗🇮🇷

🙂

ETH

置頂