Adobe陷入法律風暴:被指控利用受污染的數據鏈,使用盜版書籍訓練人工智慧

生成式人工智慧已為科技產業打開了一個法律潘朵拉盒。在 Adobe 致力於擴展其由 AI 驅動的工具組合,如 Firefly 時,一場新的集體訴訟威脅著拆解這些系統建構的基礎。指控直指:該軟體公司利用盜版文學作品來訓練 SlimLM,其系列語言模型專為行動裝置上的文件任務優化。

訓練資料的污染之路

爭議的核心在於 Adobe 如何取得其資料。根據由俄勒岡州作家 Elizabeth Lyon 提出的一份訴狀,SlimLM 是在使用 Cerebras 於 2023 年推出的 SlimPajama-627B 資料集進行預訓練的。但這裡有一個關鍵問題:SlimPajama 並非一個純淨的資料集。它是通過處理和操縱 RedPajama 而來,而 RedPajama 又包含一個有問題的子集,稱為 Books3,這是一個包含 191,000 冊大量資料的集合。

這個衍生鏈條正是法律案件的堅實根基。Lyon 的律師辯稱,通過使用一個經過處理的資料子集,該子集原本來自 Books3,Adobe 間接地將數千件受著作權保護的作品納入,未經同意或補償。Books3 一直是多個 AI 訓練計畫中的污染源,每一場新訴訟都揭示開發者如何延續這個循環。

一波定義產業的訴訟浪潮

Adobe 並非孤軍作戰。在九月,Apple 也面臨類似指控,因其將受著作權保護的資料納入其 Apple Intelligence 模型,同樣明確提及 RedPajama 作為資料污染來源。數週後,Salesforce 也遭遇了類似的法律打擊,同樣涉及使用含有盜版作品的資料集。

這個模式是不爭的事實:大型科技公司建立的 AI 系統,都是建立在從源頭就受到污染的資料結構之上。這不是偶然的疏忽,而是產業優先追求開發速度而忽視法律審慎的結果。

改變遊戲規則的先例

迄今為止最具代表性的和解是在 Anthropic(Claude 聊天機器人創建者)同意支付 15 億美元給那些因其使用盜版作品而提起訴訟的作者後達成的。這一協議被視為轉折點,象徵法院開始重視在 AI 時代的著作權保護。

每當有新案件引用 Books3、RedPajama 及其衍生子集作為侵權證據時,產業都面臨一個不舒服的現實:目前大多數 AI 模型都建立在法律存疑的基礎上。這場針對 Adobe 的訴訟,可能最終成為重新思考 AI 系統開發與訓練方式的催化劑。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言