## 知识产权在AI模型训练中的困境:以Adobe为例及其影响



利用海量数据训练人工智能系统已成为科技行业的标准做法,但也引发了前所未有的法律冲突。问题的核心在于这些模型获取能力的方式:通过处理大量数据集,而这些数据集在许多情况下包含未经原作者明确同意的受版权保护作品。

### Adobe受关注:SlimLM与Books3的遗产

自2023年以来,Adobe这家软件公司在人工智能方面投入巨大,推出了Firefly等产品,现在面临一场集体诉讼,质疑其SlimLM技术背后的方法。专注于非虚构写作指南的俄勒冈作者Elizabeth Lyon领导了这场诉讼,声称她的作品未经授权被纳入该模型的训练数据中。

指控指出了一系列数据集的派生链,展现了问题的复杂性。SlimLM是在使用Cerebras发布的开源数据集SlimPajama-627B进行预训练的。问题在于,SlimPajama是作为RedPajama的派生处理版本创建的,而RedPajama又包含Books3:一个拥有191,000本书的庞大收藏,已成为无数法律争议的源头。每个子集都可能继承前一层的知识产权漏洞,形成一条责任模糊但真实存在的链条。

### 行业中的重复模式

Adobe的情况并非孤例,而是更广泛趋势的一部分,这一趋势已开始在法律诉讼的压力下崩溃。今年九月,苹果公司也被指控使用受版权保护的材料训练Apple Intelligence,再次提到RedPajama作为数据源。同时,Salesforce也因几乎相同的理由被起诉。

最具标志性的是,Anthropic与作者达成了一项150万美元的和解协议,涉及未经授权在训练Claude时使用其作品的指控。该和解在九月报道,被广泛解读为AI训练数据版权诉讼的转折点。

### 行业的未来走向何方?

集体诉讼的不断增加表明,当前的AI训练数据获取模式在法律上已难以持续。科技公司面临一个困境:训练强大模型需要大量数据,但在大多数司法管辖区,合法且有偿地获取这些数据的框架尚未建立。Adobe的案例,特别是SlimLM继承了前一层数据集中的问题,凸显了责任追溯的复杂性,即使公司声称使用的是“开源”数据集。

行业正处于关键时刻,法律先例开始定义在AI训练中什么是可接受的,什么是不被允许的。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)