Adobe sob fogo legal: acusada de treinar IA com livros pirateados através de cadeia de dados contaminada

2026-01-12 09:03:02

A inteligência artificial generativa abriu uma caixa de Pandora legal para a indústria tecnológica. Enquanto a Adobe apostava em expandir seu arsenal de ferramentas impulsionadas por IA com produtos como Firefly, uma nova ação coletiva ameaça desmantelar os fundamentos de como esses sistemas são construídos. A acusação é direta: a empresa de software utilizou obras literárias pirateadas para treinar o SlimLM, sua série de modelos de linguagem otimizados para tarefas documentais em dispositivos móveis.

O caminho contaminado dos dados de treino

O coração da disputa reside em como a Adobe obteve seus dados. Segundo a ação apresentada por Elizabeth Lyon, autora do Oregon especializada em guias de não ficção, o SlimLM foi pré-treinado usando o SlimPajama-627B, um conjunto de dados lançado pela Cerebras em 2023. Mas aqui está o problema crítico: o SlimPajama não é um dataset virgem. Foi criado ao processar e manipular o RedPajama, que por sua vez contém um subconjunto de dados problemático conhecido como Books3, uma coleção massiva de 191.000 volumes.

Essa cadeia de derivação é o que fortalece o caso legal. Os advogados de Lyon argumentam que, ao usar um subconjunto processado de dados que originalmente provém do Books3, a Adobe indiretamente incorporou milhares de obras protegidas por direitos autorais sem consentimento nem compensação. O Books3 tem sido a fonte de contaminação em várias iniciativas de treino de IA, e cada novo litígio expõe como os desenvolvedores perpetuam esse ciclo.

Uma onda de litígios que define a indústria

A Adobe não está sozinha nesta encruzilhada legal. Em setembro, a Apple enfrentou acusações semelhantes por incorporar material protegido por direitos autorais em seu modelo Apple Intelligence, novamente com menção explícita ao RedPajama como fonte de contaminação de dados. Poucas semanas depois, a Salesforce recebeu uma ação legal idêntica, também relacionada ao uso de datasets que contêm obras pirateadas.

O padrão é inegável: as grandes tecnológicas construíram seus sistemas de IA sobre estruturas de dados que foram contaminadas desde a origem. Isso não é negligência acidental, mas o resultado de uma indústria que priorizou a velocidade de desenvolvimento acima da diligência legal.

O precedente que mudou o jogo

O acordo mais significativo até agora ocorreu quando a Anthropic, criadora do chatbot Claude, aceitou pagar 1,5 bilhões de dólares a autores que a processaram por usar versões pirateadas de seus textos. Este acordo é considerado um ponto de inflexão, um sinal de que os tribunais estão levando a sério a proteção de direitos autorais na era da IA.

Com cada novo caso que cita o Books3, RedPajama e seus subconjuntos derivados como evidência de infração, a indústria enfrenta uma realidade desconfortável: a maioria dos modelos de IA atuais repousa sobre bases legais questionáveis. O que começou como uma ação contra a Adobe pode acabar sendo um catalisador para repensar completamente como os sistemas de inteligência artificial são desenvolvidos e treinados.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.