2026-01-12 09:01:15

## O dilema da propriedade intelectual no treino de modelos de IA: o caso Adobe e além

A utilização de dados massivos para treinar sistemas de inteligência artificial tornou-se uma prática padrão na indústria tecnológica, mas também gerou um conflito legal sem precedentes. O núcleo do problema reside em como esses modelos adquirem as suas capacidades: através do processamento de enormes conjuntos de dados que, em muitos casos, contêm obras protegidas por direitos de autor sem consentimento explícito dos criadores originais.

### Adobe sob a lupa: SlimLM e o legado de Books3

Adobe, a empresa de software que investiu significativamente em inteligência artificial desde 2023 com produtos como Firefly, agora enfrenta uma ação coletiva que questiona os métodos por trás da sua tecnologia SlimLM. Elizabeth Lyon, autora de Oregon especializada em guias de escrita de não ficção, liderou a ação afirmando que as suas obras foram incluídas sem autorização nos dados de treino deste modelo.

A acusação aponta para uma cadeia de derivações de conjuntos de dados que ilustra a complexidade do problema. SlimLM foi pré-treinado utilizando SlimPajama-627B, um conjunto de dados de código aberto lançado pela Cerebras. O problemático é que SlimPajama foi criado como uma derivação processada de RedPajama, que por sua vez contém Books3: uma colossal coleção de 191.000 livros que se tornou a fonte de inúmeras controvérsias legais. Cada subconjunto de dados herdou potencialmente as vulnerabilidades de propriedade intelectual do anterior, criando uma cadeia de responsabilidade difusa mas real.

### Um padrão que se repete em toda a indústria

O que acontece com a Adobe não é um incidente isolado, mas parte de uma tendência mais ampla que começou a colapsar sob o peso de ações legais. Em setembro, a Apple enfrentou acusações semelhantes de ter utilizado material protegido por direitos de autor para treinar a Apple Intelligence, novamente com RedPajama mencionado como fonte. Paralelamente, a Salesforce foi processada com argumentos praticamente idênticos.

O momento mais significativo chegou quando a Anthropic concordou com um acordo de 1,5 milhões de dólares com autores que processavam por uso não autorizado de suas obras no treino do Claude. Este acordo, reportado em setembro, foi amplamente interpretado como um ponto de inflexão no litígio sobre direitos de autor em dados de treino de IA.

### Para onde vai a indústria?

A acumulação de ações coletivas sugere que o modelo atual de aquisição de dados para treinar IA é insustentável legalmente. As empresas tecnológicas enfrentam um dilema: treinar modelos poderosos requer volumes massivos de dados, mas a obtenção legal e compensada de tais volumes ainda não possui um quadro estabelecido na maioria das jurisdições. O caso da Adobe, particularmente a forma como o SlimLM herdou dados problemáticos de subconjuntos anteriores, destaca como a responsabilidade pode ser rastreada através de múltiplas camadas de processamento de dados, mesmo quando as empresas garantem usar conjuntos de dados "de código aberto".

A indústria encontra-se num momento crítico onde os precedentes legais estão começando a definir o que é aceitável e o que não é no treino de IA.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.