生成型人工知能は、テクノロジー業界にとって法的なパンドラの箱を開けてしまった。AdobeがFireflyなどのAI駆動ツールの拡充を目指す一方で、新たな集団訴訟がこれらのシステムの構築方法の根幹を揺るがす可能性がある。訴えは直接的だ:ソフトウェア企業は、海賊版の文学作品を使用して、モバイルデバイス向けのドキュメント処理に最適化されたモデルシリーズであるSlimLMを訓練したとされている。## 訓練データの汚染された道のり争点の核心は、Adobeがどのようにデータを入手したかにある。オレゴン州出身のノンフィクションガイドの著者であるElizabeth Lyonが提起した訴訟によると、SlimLMは2023年にCerebrasがリリースしたデータセットであるSlimPajama-627Bを用いて事前訓練された。しかし、ここに重大な問題がある:SlimPajamaは純粋なデータセットではない。これは、RedPajamaを処理・操作して作成されたものであり、そのRedPajama自体には、Books3と呼ばれる問題のあるデータのサブセットを含む大量の191,000巻のコレクションが含まれている。この派生の連鎖こそが法的な強みとなる。Lyonの弁護士は、Books3から元々得られた処理済みのデータのサブセットを使用したことで、Adobeが無断かつ報酬なしに何千もの著作権保護作品を間接的に取り込んだと主張している。Books3は、多くのAI訓練プロジェクトにおいて汚染源となっており、新たな訴訟ごとに、開発者がこのサイクルをいかに維持しているかが明らかになっている。## 業界を定義する訴訟の波Adobeだけがこの法的ジレンマに直面しているわけではない。9月には、Appleもまた、RedPajamaをデータ汚染の源として明示的に言及し、著作権で保護された資料をモデルApple Intelligenceに組み込んだとして、類似の訴訟に直面した。数週間後、Salesforceもまた、海賊版作品を含むデータセットの使用に関して同様の法的打撃を受けている。このパターンは否定できない:大手テクノロジー企業は、汚染されたデータ構造の上にAIシステムを構築してきた。これは偶発的な過失ではなく、開発のスピードを優先し、法的な注意義務を軽視した産業の結果だ。## ゲームを変えた前例これまでで最も重要な合意は、チャットボットClaudeの開発者であるAnthropicが、著作権侵害の訴訟を起こした著者たちに対し、海賊版の著作物を使用したことに対して15億ドルを支払うことに同意したケースだ。この合意は、AI時代における著作権保護の重要性を示す転換点と見なされている。Books3やRedPajama、その派生サブセットを侵害の証拠として引用する新たな訴訟が増えるたびに、業界は不快な現実に直面している:現在の多くのAIモデルは、法的に疑問のある基盤の上に成り立っている。Adobeに対する訴訟から始まったこの動きは、AIシステムの開発と訓練の方法を根本的に見直すきっかけとなる可能性がある。
アドビ、法的な火の粉を浴びる:海賊版の書籍を使ったデータチェーンを通じてAIを訓練したとして告発
生成型人工知能は、テクノロジー業界にとって法的なパンドラの箱を開けてしまった。AdobeがFireflyなどのAI駆動ツールの拡充を目指す一方で、新たな集団訴訟がこれらのシステムの構築方法の根幹を揺るがす可能性がある。訴えは直接的だ:ソフトウェア企業は、海賊版の文学作品を使用して、モバイルデバイス向けのドキュメント処理に最適化されたモデルシリーズであるSlimLMを訓練したとされている。
訓練データの汚染された道のり
争点の核心は、Adobeがどのようにデータを入手したかにある。オレゴン州出身のノンフィクションガイドの著者であるElizabeth Lyonが提起した訴訟によると、SlimLMは2023年にCerebrasがリリースしたデータセットであるSlimPajama-627Bを用いて事前訓練された。しかし、ここに重大な問題がある:SlimPajamaは純粋なデータセットではない。これは、RedPajamaを処理・操作して作成されたものであり、そのRedPajama自体には、Books3と呼ばれる問題のあるデータのサブセットを含む大量の191,000巻のコレクションが含まれている。
この派生の連鎖こそが法的な強みとなる。Lyonの弁護士は、Books3から元々得られた処理済みのデータのサブセットを使用したことで、Adobeが無断かつ報酬なしに何千もの著作権保護作品を間接的に取り込んだと主張している。Books3は、多くのAI訓練プロジェクトにおいて汚染源となっており、新たな訴訟ごとに、開発者がこのサイクルをいかに維持しているかが明らかになっている。
業界を定義する訴訟の波
Adobeだけがこの法的ジレンマに直面しているわけではない。9月には、Appleもまた、RedPajamaをデータ汚染の源として明示的に言及し、著作権で保護された資料をモデルApple Intelligenceに組み込んだとして、類似の訴訟に直面した。数週間後、Salesforceもまた、海賊版作品を含むデータセットの使用に関して同様の法的打撃を受けている。
このパターンは否定できない:大手テクノロジー企業は、汚染されたデータ構造の上にAIシステムを構築してきた。これは偶発的な過失ではなく、開発のスピードを優先し、法的な注意義務を軽視した産業の結果だ。
ゲームを変えた前例
これまでで最も重要な合意は、チャットボットClaudeの開発者であるAnthropicが、著作権侵害の訴訟を起こした著者たちに対し、海賊版の著作物を使用したことに対して15億ドルを支払うことに同意したケースだ。この合意は、AI時代における著作権保護の重要性を示す転換点と見なされている。
Books3やRedPajama、その派生サブセットを侵害の証拠として引用する新たな訴訟が増えるたびに、業界は不快な現実に直面している:現在の多くのAIモデルは、法的に疑問のある基盤の上に成り立っている。Adobeに対する訴訟から始まったこの動きは、AIシステムの開発と訓練の方法を根本的に見直すきっかけとなる可能性がある。