Gate 广场创作者新春激励正式开启,发帖解锁 $60,000 豪华奖池
如何参与:
报名活动表单:https://www.gate.com/questionnaire/7315
使用广场任意发帖小工具,搭配文字发布内容即可
丰厚奖励一览:
发帖即可可瓜分 $25,000 奖池
10 位幸运用户:获得 1 GT + Gate 鸭舌帽
Top 发帖奖励:发帖与互动越多,排名越高,赢取 Gate 新年周边、Gate 双肩包等好礼
新手专属福利:首帖即得 $50 奖励,继续发帖还能瓜分 $10,000 新手奖池
活动时间:2026 年 1 月 8 日 16:00 – 1 月 26 日 24:00(UTC+8)
详情:https://www.gate.com/announcements/article/49112
Adobe陷入法律风暴:被指控利用受盗版书籍通过污染的数据链训练人工智能
生成式人工智能为科技行业打开了一扇法律潘多拉盒子。在Adobe致力于通过Firefly等产品扩展其由AI驱动的工具库时,一场新的集体诉讼威胁着拆解这些系统的构建基础。指控直指:该软件公司利用盗版文学作品训练其面向移动设备的文档任务优化模型系列SlimLM。
训练数据的污染之路
争议的核心在于Adobe是如何获取其数据的。根据由俄勒冈州作家Elizabeth Lyon提出的起诉书,SlimLM是在使用Cerebras于2023年发布的数据集SlimPajama-627B进行预训练的。但这里存在一个关键问题:SlimPajama并非一个纯净的数据集。它是在处理和操控RedPajama的基础上创建的,而RedPajama又包含一个有争议的子集——Books3,这是一个包含191,000卷的大型藏书集。
这条派生链正是强化法律案件的原因。Lyon的律师辩称,利用源自Books3的处理过的子集数据,Adobe间接地未经授权或补偿地整合了数千件受版权保护的作品。Books3一直是多起AI训练项目中的污染源,每一次新的诉讼都揭示了开发者如何延续这一循环。
影响行业的诉讼浪潮
Adobe并非在这场法律困境中孤军作战。九月,苹果公司因在其Apple Intelligence模型中使用受版权保护的材料而面临类似指控,明确提及RedPajama作为数据污染源。几周后,Salesforce也遭遇了类似的法律打击,同样涉及含有盗版作品的数据集。
这一模式不容否认:大型科技公司在其AI系统的构建中,使用了从源头就被污染的数据结构。这不是偶然的疏忽,而是行业优先考虑开发速度而非法律审慎的结果。
改变游戏规则的先例
迄今为止最具影响力的协议是在Anthropic公司(Claude聊天机器人开发者)同意向因使用盗版作品而起诉的作者支付15亿美元后达成的。这一和解被视为一个转折点,表明法院开始认真对待在AI时代的版权保护问题。
随着每一个引用Books3、RedPajama及其派生子集作为侵权证据的新案件出现,行业面临一个尴尬的现实:目前大多数AI模型都建立在法律基础存疑的基础之上。最初针对Adobe的诉讼可能最终成为重新思考AI系统开发与训练方式的催化剂。