Gate 广场创作者新春激励正式开启,发帖解锁 $60,000 豪华奖池
如何参与:
报名活动表单:https://www.gate.com/questionnaire/7315
使用广场任意发帖小工具,搭配文字发布内容即可
丰厚奖励一览:
发帖即可可瓜分 $25,000 奖池
10 位幸运用户:获得 1 GT + Gate 鸭舌帽
Top 发帖奖励:发帖与互动越多,排名越高,赢取 Gate 新年周边、Gate 双肩包等好礼
新手专属福利:首帖即得 $50 奖励,继续发帖还能瓜分 $10,000 新手奖池
活动时间:2026 年 1 月 8 日 16:00 – 1 月 26 日 24:00(UTC+8)
详情:https://www.gate.com/announcements/article/49112
## 知识产权在AI模型训练中的困境:以Adobe为例及其影响
利用海量数据训练人工智能系统已成为科技行业的标准做法,但也引发了前所未有的法律冲突。问题的核心在于这些模型获取能力的方式:通过处理大量数据集,而这些数据集在许多情况下包含未经原作者明确同意的受版权保护作品。
### Adobe受关注:SlimLM与Books3的遗产
自2023年以来,Adobe这家软件公司在人工智能方面投入巨大,推出了Firefly等产品,现在面临一场集体诉讼,质疑其SlimLM技术背后的方法。专注于非虚构写作指南的俄勒冈作者Elizabeth Lyon领导了这场诉讼,声称她的作品未经授权被纳入该模型的训练数据中。
指控指出了一系列数据集的派生链,展现了问题的复杂性。SlimLM是在使用Cerebras发布的开源数据集SlimPajama-627B进行预训练的。问题在于,SlimPajama是作为RedPajama的派生处理版本创建的,而RedPajama又包含Books3:一个拥有191,000本书的庞大收藏,已成为无数法律争议的源头。每个子集都可能继承前一层的知识产权漏洞,形成一条责任模糊但真实存在的链条。
### 行业中的重复模式
Adobe的情况并非孤例,而是更广泛趋势的一部分,这一趋势已开始在法律诉讼的压力下崩溃。今年九月,苹果公司也被指控使用受版权保护的材料训练Apple Intelligence,再次提到RedPajama作为数据源。同时,Salesforce也因几乎相同的理由被起诉。
最具标志性的是,Anthropic与作者达成了一项150万美元的和解协议,涉及未经授权在训练Claude时使用其作品的指控。该和解在九月报道,被广泛解读为AI训练数据版权诉讼的转折点。
### 行业的未来走向何方?
集体诉讼的不断增加表明,当前的AI训练数据获取模式在法律上已难以持续。科技公司面临一个困境:训练强大模型需要大量数据,但在大多数司法管辖区,合法且有偿地获取这些数据的框架尚未建立。Adobe的案例,特别是SlimLM继承了前一层数据集中的问题,凸显了责任追溯的复杂性,即使公司声称使用的是“开源”数据集。
行业正处于关键时刻,法律先例开始定义在AI训练中什么是可接受的,什么是不被允许的。