Gate 廣場|3/5 今日話題: #比特币创下近一月新高
🎁 解讀行情走勢,抽 5 位錦鯉送出 $2,500 仓位體驗券!
隨著白宮表示已向參議院提交凱文·沃什擔任美聯儲主席的提名,美國參議院未通過叫停特朗普打擊伊朗的投票,比特幣於今日凌晨創下 2 月 5 日以來新高,最高觸及 74,050 美元,加密貨幣總市值回升突破 2.538 萬億美元。
💬 本期熱議:
1️⃣ 凱文·沃什的提名是否意味著降息預期升溫?
2️⃣ 當前關口,你是持幣待漲、順勢追多,還是反手布局回調?
分享觀點,瓜分好禮 👉️ https://www.gate.com/post
📅 3/6 15:00 - 3/8 12:00 (UTC+8)
Adobe陷入法律風暴:被指控利用受污染的數據鏈,使用盜版書籍訓練人工智慧
生成式人工智慧已為科技產業打開了一個法律潘朵拉盒。在 Adobe 致力於擴展其由 AI 驅動的工具組合,如 Firefly 時,一場新的集體訴訟威脅著拆解這些系統建構的基礎。指控直指:該軟體公司利用盜版文學作品來訓練 SlimLM,其系列語言模型專為行動裝置上的文件任務優化。
訓練資料的污染之路
爭議的核心在於 Adobe 如何取得其資料。根據由俄勒岡州作家 Elizabeth Lyon 提出的一份訴狀,SlimLM 是在使用 Cerebras 於 2023 年推出的 SlimPajama-627B 資料集進行預訓練的。但這裡有一個關鍵問題:SlimPajama 並非一個純淨的資料集。它是通過處理和操縱 RedPajama 而來,而 RedPajama 又包含一個有問題的子集,稱為 Books3,這是一個包含 191,000 冊大量資料的集合。
這個衍生鏈條正是法律案件的堅實根基。Lyon 的律師辯稱,通過使用一個經過處理的資料子集,該子集原本來自 Books3,Adobe 間接地將數千件受著作權保護的作品納入,未經同意或補償。Books3 一直是多個 AI 訓練計畫中的污染源,每一場新訴訟都揭示開發者如何延續這個循環。
一波定義產業的訴訟浪潮
Adobe 並非孤軍作戰。在九月,Apple 也面臨類似指控,因其將受著作權保護的資料納入其 Apple Intelligence 模型,同樣明確提及 RedPajama 作為資料污染來源。數週後,Salesforce 也遭遇了類似的法律打擊,同樣涉及使用含有盜版作品的資料集。
這個模式是不爭的事實:大型科技公司建立的 AI 系統,都是建立在從源頭就受到污染的資料結構之上。這不是偶然的疏忽,而是產業優先追求開發速度而忽視法律審慎的結果。
改變遊戲規則的先例
迄今為止最具代表性的和解是在 Anthropic(Claude 聊天機器人創建者)同意支付 15 億美元給那些因其使用盜版作品而提起訴訟的作者後達成的。這一協議被視為轉折點,象徵法院開始重視在 AI 時代的著作權保護。
每當有新案件引用 Books3、RedPajama 及其衍生子集作為侵權證據時,產業都面臨一個不舒服的現實:目前大多數 AI 模型都建立在法律存疑的基礎上。這場針對 Adobe 的訴訟,可能最終成為重新思考 AI 系統開發與訓練方式的催化劑。