Adobe陷入法律风暴:被指控利用受盗版书籍通过污染的数据链训练人工智能

生成式人工智能为科技行业打开了一扇法律潘多拉盒子。在Adobe致力于通过Firefly等产品扩展其由AI驱动的工具库时,一场新的集体诉讼威胁着拆解这些系统的构建基础。指控直指:该软件公司利用盗版文学作品训练其面向移动设备的文档任务优化模型系列SlimLM。

训练数据的污染之路

争议的核心在于Adobe是如何获取其数据的。根据由俄勒冈州作家Elizabeth Lyon提出的起诉书,SlimLM是在使用Cerebras于2023年发布的数据集SlimPajama-627B进行预训练的。但这里存在一个关键问题:SlimPajama并非一个纯净的数据集。它是在处理和操控RedPajama的基础上创建的,而RedPajama又包含一个有争议的子集——Books3,这是一个包含191,000卷的大型藏书集。

这条派生链正是强化法律案件的原因。Lyon的律师辩称,利用源自Books3的处理过的子集数据,Adobe间接地未经授权或补偿地整合了数千件受版权保护的作品。Books3一直是多起AI训练项目中的污染源,每一次新的诉讼都揭示了开发者如何延续这一循环。

影响行业的诉讼浪潮

Adobe并非在这场法律困境中孤军作战。九月,苹果公司因在其Apple Intelligence模型中使用受版权保护的材料而面临类似指控,明确提及RedPajama作为数据污染源。几周后,Salesforce也遭遇了类似的法律打击,同样涉及含有盗版作品的数据集。

这一模式不容否认:大型科技公司在其AI系统的构建中,使用了从源头就被污染的数据结构。这不是偶然的疏忽,而是行业优先考虑开发速度而非法律审慎的结果。

改变游戏规则的先例

迄今为止最具影响力的协议是在Anthropic公司(Claude聊天机器人开发者)同意向因使用盗版作品而起诉的作者支付15亿美元后达成的。这一和解被视为一个转折点,表明法院开始认真对待在AI时代的版权保护问题。

随着每一个引用Books3、RedPajama及其派生子集作为侵权证据的新案件出现,行业面临一个尴尬的现实:目前大多数AI模型都建立在法律基础存疑的基础之上。最初针对Adobe的诉讼可能最终成为重新思考AI系统开发与训练方式的催化剂。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)