La inteligencia artificial generativa ha abierto una caja de Pandora legal para la industria tecnológica. Mientras Adobe apostaba por expandir su arsenal de herramientas impulsadas por IA con productos como Firefly, una nueva demanda colectiva amenaza con desmantelar los cimientos de cómo se construyen estos sistemas. La acusación es directa: la compañía de software utilizó obras literarias pirateadas para entrenar SlimLM, su serie de modelos de lenguaje optimizados para tareas documentales en dispositivos móviles.
El camino contaminado de los datos de entrenamiento
El corazón de la disputa radica en cómo Adobe obtuvo sus datos. Según la demanda presentada por Elizabeth Lyon, autora de Oregon especializada en guías de no ficción, SlimLM fue preentrenado utilizando SlimPajama-627B, un conjunto de datos lanzado por Cerebras en 2023. Pero aquí está el problema crítico: SlimPajama no es un dataset virgen. Fue creado al procesar y manipular RedPajama, que a su vez contiene un subconjunto de datos problemático conocido como Books3, una colección masiva de 191.000 volúmenes.
Esta cadena de derivación es lo que fortalece el caso legal. Los abogados de Lyon argumentan que al utilizar un subconjunto procesado de datos que originalmente proviene de Books3, Adobe indirectamente incorporó miles de obras protegidas por derechos de autor sin consentimiento ni compensación. Books3 ha sido la fuente de contaminación en numerosas iniciativas de entrenamiento de IA, y cada nuevo litigio expone cómo los desarrolladores perpetúan este ciclo.
Una oleada de litigios que define la industria
Adobe no está sola en esta encrucijada legal. En septiembre, Apple enfrentó acusaciones similares por incorporar material protegido por derechos de autor en su modelo Apple Intelligence, nuevamente con mención explícita de RedPajama como fuente de contaminación de datos. Pocas semanas después, Salesforce recibió un golpe legal idéntico, también vinculado al uso de datasets que contienen obras pirateadas.
El patrón es innegable: las grandes tecnológicas han construido sus sistemas de IA sobre estructuras de datos que fueron contaminadas desde su origen. Esta no es negligencia accidental, sino el resultado de una industria que priorizó la velocidad de desarrollo sobre la diligencia legal.
El precedente que cambió el juego
El acuerdo más significativo hasta ahora llegó cuando Anthropic, creadora del chatbot Claude, aceptó pagar 1.5 mil millones de dólares a autores que la demandaron por utilizar versiones pirateadas de sus escritos. Este arreglo se considera un punto de inflexión, una señal de que los tribunales están tomando en serio la protección de derechos de autor en la era de la IA.
Con cada nuevo caso que cita Books3, RedPajama y sus subconjuntos derivados como evidencia de infracción, la industria enfrenta una realidad incómoda: la mayoría de los modelos de IA actuales descansan sobre bases legales cuestionables. Lo que comenzó como una demanda contra Adobe podría terminar siendo un catalizador para repensar completamente cómo se desarrollan y entrenan los sistemas de inteligencia artificial.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Adobe bajo fuego legal: acusada de entrenar IA con libros pirateados a través de cadena de datos contaminada
La inteligencia artificial generativa ha abierto una caja de Pandora legal para la industria tecnológica. Mientras Adobe apostaba por expandir su arsenal de herramientas impulsadas por IA con productos como Firefly, una nueva demanda colectiva amenaza con desmantelar los cimientos de cómo se construyen estos sistemas. La acusación es directa: la compañía de software utilizó obras literarias pirateadas para entrenar SlimLM, su serie de modelos de lenguaje optimizados para tareas documentales en dispositivos móviles.
El camino contaminado de los datos de entrenamiento
El corazón de la disputa radica en cómo Adobe obtuvo sus datos. Según la demanda presentada por Elizabeth Lyon, autora de Oregon especializada en guías de no ficción, SlimLM fue preentrenado utilizando SlimPajama-627B, un conjunto de datos lanzado por Cerebras en 2023. Pero aquí está el problema crítico: SlimPajama no es un dataset virgen. Fue creado al procesar y manipular RedPajama, que a su vez contiene un subconjunto de datos problemático conocido como Books3, una colección masiva de 191.000 volúmenes.
Esta cadena de derivación es lo que fortalece el caso legal. Los abogados de Lyon argumentan que al utilizar un subconjunto procesado de datos que originalmente proviene de Books3, Adobe indirectamente incorporó miles de obras protegidas por derechos de autor sin consentimiento ni compensación. Books3 ha sido la fuente de contaminación en numerosas iniciativas de entrenamiento de IA, y cada nuevo litigio expone cómo los desarrolladores perpetúan este ciclo.
Una oleada de litigios que define la industria
Adobe no está sola en esta encrucijada legal. En septiembre, Apple enfrentó acusaciones similares por incorporar material protegido por derechos de autor en su modelo Apple Intelligence, nuevamente con mención explícita de RedPajama como fuente de contaminación de datos. Pocas semanas después, Salesforce recibió un golpe legal idéntico, también vinculado al uso de datasets que contienen obras pirateadas.
El patrón es innegable: las grandes tecnológicas han construido sus sistemas de IA sobre estructuras de datos que fueron contaminadas desde su origen. Esta no es negligencia accidental, sino el resultado de una industria que priorizó la velocidad de desarrollo sobre la diligencia legal.
El precedente que cambió el juego
El acuerdo más significativo hasta ahora llegó cuando Anthropic, creadora del chatbot Claude, aceptó pagar 1.5 mil millones de dólares a autores que la demandaron por utilizar versiones pirateadas de sus escritos. Este arreglo se considera un punto de inflexión, una señal de que los tribunales están tomando en serio la protección de derechos de autor en la era de la IA.
Con cada nuevo caso que cita Books3, RedPajama y sus subconjuntos derivados como evidencia de infracción, la industria enfrenta una realidad incómoda: la mayoría de los modelos de IA actuales descansan sobre bases legales cuestionables. Lo que comenzó como una demanda contra Adobe podría terminar siendo un catalizador para repensar completamente cómo se desarrollan y entrenan los sistemas de inteligencia artificial.