## Le dilemme de la propriété intellectuelle dans l'entraînement des modèles d'IA : le cas Adobe et au-delà
L'utilisation de données massives pour entraîner des systèmes d'intelligence artificielle est devenue une pratique standard dans l'industrie technologique, mais elle a également suscité un conflit juridique sans précédent. Le cœur du problème réside dans la façon dont ces modèles acquièrent leurs capacités : par le traitement d'ensembles de données énormes qui, dans de nombreux cas, contiennent des œuvres protégées par des droits d'auteur sans le consentement explicite des créateurs originaux.
### Adobe sous la loupe : SlimLM et l'héritage de Books3
Adobe, l'entreprise de logiciels qui a investi de manière significative dans l'intelligence artificielle depuis 2023 avec des produits comme Firefly, fait maintenant face à une action collective qui remet en question les méthodes derrière sa technologie SlimLM. Elizabeth Lyon, auteure spécialisée dans les guides d'écriture de non-fiction en Oregon, a lancé la plainte en affirmant que ses œuvres ont été incluses sans autorisation dans les données d'entraînement de ce modèle.
L'accusation pointe une chaîne de dérivations d'ensembles de données illustrant la complexité du problème. SlimLM a été préentraîné en utilisant SlimPajama-627B, un ensemble de données open source lancé par Cerebras. Le problème est que SlimPajama a été créé comme une dérivation traitée de RedPajama, qui à son tour contient Books3 : une collection colossale de 191 000 livres qui est devenue la source de nombreuses controverses juridiques. Chaque sous-ensemble de données a potentiellement hérité des vulnérabilités en matière de propriété intellectuelle du précédent, créant une chaîne de responsabilité diffuse mais réelle.
### Un motif qui se répète dans toute l'industrie
Ce qui arrive avec Adobe n'est pas un incident isolé, mais fait partie d'une tendance plus large qui commence à s'effondrer sous le poids de poursuites judiciaires. En septembre, Apple a été accusée de manière similaire d'avoir utilisé du matériel protégé par des droits d'auteur pour entraîner Apple Intelligence, RedPajama étant encore une fois mentionné comme source. Parallèlement, Salesforce a été poursuivie sur des arguments pratiquement identiques.
Le moment le plus marquant est arrivé lorsque Anthropic a conclu un accord de 1,5 million de dollars avec des auteurs qui poursuivaient pour l'utilisation non autorisée de leurs œuvres dans l'entraînement de Claude. Cet accord, rapporté en septembre, a été largement interprété comme un tournant dans le litige sur les droits d'auteur dans les données d'entraînement de l'IA.
### Où va l'industrie ?
L'accumulation de poursuites collectives suggère que le modèle actuel d'acquisition de données pour entraîner l'IA est juridiquement insoutenable. Les entreprises technologiques sont confrontées à un dilemme : entraîner des modèles puissants nécessite des volumes massifs de données, mais l'obtention légale et rémunérée de tels volumes n'a pas encore de cadre établi dans la majorité des juridictions. Le cas d'Adobe, en particulier la façon dont SlimLM a hérité de données problématiques de sous-ensembles précédents, met en lumière comment la responsabilité peut être tracée à travers plusieurs couches de traitement des données, même lorsque les entreprises assurent utiliser des ensembles de données "open source".
L'industrie se trouve à un moment critique où les précédents juridiques commencent à définir ce qui est acceptable et ce qui ne l'est pas dans l'entraînement de l'IA.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
## Le dilemme de la propriété intellectuelle dans l'entraînement des modèles d'IA : le cas Adobe et au-delà
L'utilisation de données massives pour entraîner des systèmes d'intelligence artificielle est devenue une pratique standard dans l'industrie technologique, mais elle a également suscité un conflit juridique sans précédent. Le cœur du problème réside dans la façon dont ces modèles acquièrent leurs capacités : par le traitement d'ensembles de données énormes qui, dans de nombreux cas, contiennent des œuvres protégées par des droits d'auteur sans le consentement explicite des créateurs originaux.
### Adobe sous la loupe : SlimLM et l'héritage de Books3
Adobe, l'entreprise de logiciels qui a investi de manière significative dans l'intelligence artificielle depuis 2023 avec des produits comme Firefly, fait maintenant face à une action collective qui remet en question les méthodes derrière sa technologie SlimLM. Elizabeth Lyon, auteure spécialisée dans les guides d'écriture de non-fiction en Oregon, a lancé la plainte en affirmant que ses œuvres ont été incluses sans autorisation dans les données d'entraînement de ce modèle.
L'accusation pointe une chaîne de dérivations d'ensembles de données illustrant la complexité du problème. SlimLM a été préentraîné en utilisant SlimPajama-627B, un ensemble de données open source lancé par Cerebras. Le problème est que SlimPajama a été créé comme une dérivation traitée de RedPajama, qui à son tour contient Books3 : une collection colossale de 191 000 livres qui est devenue la source de nombreuses controverses juridiques. Chaque sous-ensemble de données a potentiellement hérité des vulnérabilités en matière de propriété intellectuelle du précédent, créant une chaîne de responsabilité diffuse mais réelle.
### Un motif qui se répète dans toute l'industrie
Ce qui arrive avec Adobe n'est pas un incident isolé, mais fait partie d'une tendance plus large qui commence à s'effondrer sous le poids de poursuites judiciaires. En septembre, Apple a été accusée de manière similaire d'avoir utilisé du matériel protégé par des droits d'auteur pour entraîner Apple Intelligence, RedPajama étant encore une fois mentionné comme source. Parallèlement, Salesforce a été poursuivie sur des arguments pratiquement identiques.
Le moment le plus marquant est arrivé lorsque Anthropic a conclu un accord de 1,5 million de dollars avec des auteurs qui poursuivaient pour l'utilisation non autorisée de leurs œuvres dans l'entraînement de Claude. Cet accord, rapporté en septembre, a été largement interprété comme un tournant dans le litige sur les droits d'auteur dans les données d'entraînement de l'IA.
### Où va l'industrie ?
L'accumulation de poursuites collectives suggère que le modèle actuel d'acquisition de données pour entraîner l'IA est juridiquement insoutenable. Les entreprises technologiques sont confrontées à un dilemme : entraîner des modèles puissants nécessite des volumes massifs de données, mais l'obtention légale et rémunérée de tels volumes n'a pas encore de cadre établi dans la majorité des juridictions. Le cas d'Adobe, en particulier la façon dont SlimLM a hérité de données problématiques de sous-ensembles précédents, met en lumière comment la responsabilité peut être tracée à travers plusieurs couches de traitement des données, même lorsque les entreprises assurent utiliser des ensembles de données "open source".
L'industrie se trouve à un moment critique où les précédents juridiques commencent à définir ce qui est acceptable et ce qui ne l'est pas dans l'entraînement de l'IA.