Mes données ne sont pas à moi : l'émergence des couches de données

Intermédiaire2/10/2025, 4:24:36 AM
Les discussions sur la propriété des données et la confidentialité se sont intensifiées. Les protocoles de données Web3 comme Vana, Ocean Protocol et Masa émergent, favorisant la souveraineté des données décentralisée et permettant aux utilisateurs de contrôler et monétiser leurs données, en particulier dans la formation à l'IA et l'acquisition de données en temps réel. Ces protocoles offrent de nouvelles solutions pour le commerce des données et la protection de la vie privée, répondant à la demande croissante de données de haute qualité.

Les données sont l'or numérique à l'ère où l'attention est en ligne. Le temps d'écran moyen mondial en 2024 est de 6 heures et 40 minutes par jour, en augmentation par rapport aux années précédentes. Aux États-Unis, la moyenne est encore plus élevée à 7 heures et 3 minutes par jour.

Avec ce niveau d'engagement, le volume de données générées est stupéfiant - 328,77 millions de téraoctets sont créés chaque jour en 2024. Cela équivaut à environ 0,4 zettaoctets (ZB) par jour en tenant compte de toutes les données nouvellement générées, capturées, copiées ou consommées.

Pourtant, malgré les énormes quantités de données produites et consommées quotidiennement, les utilisateurs en possèdent très peu :

  • Médias sociaux : Les données sur des plateformes telles que Twitter, Instagram et d'autres sont contrôlées par les entreprises, même si les utilisateurs les génèrent.
  • Internet des objets (IdO) : Les données provenant des appareils intelligents appartiennent généralement au fabricant de l'appareil ou au fournisseur de services, sauf indication contraire dans des accords spécifiques.
  • Données de santé: Bien que les individus aient des droits sur leurs dossiers médicaux, une grande partie des données provenant d'applications de santé ou d'appareils portables est contrôlée par les entreprises qui fournissent ces services.

Données cryptographiques et sociales

En crypto, nous avons vu l'émergence de @_kaitoai, qui indexe les données sociales sur Twitter et les traduit en données de sentiment exploitables pour les projets, KOLs et leaders d'opinion. Les mots «yap» et «mindshare» ont été popularisés par l'équipe Kaito en raison de leur expertise en growth hacking (avec leurs tableaux de bord populaires mindshare & yapper) et de leur capacité à susciter un intérêt organique sur Crypto Twitter.

« Yap » vise à encourager la création de contenu de qualité sur Twitter, mais de nombreuses questions restent sans réponse :

  • À quel point les yaps sont-ils « exactement » notés ?
  • Obtenez-vous du yap supplémentaire en mentionnant Kaito ?
  • Est-ce que Kaito récompense vraiment le contenu de qualité, ou favorise-t-il les prises de position controversées?

Au-delà des données sociales, les discussions sur la propriété des données, la vie privée et la transparence s'intensifient. Avec l'avancée rapide de l'IA, de nouvelles questions émergent : À qui appartiennent les données utilisées pour former les modèles d'IA ? Qui bénéficie des résultats générés par l'IA ?

Ces questions posent les bases de l'émergence des couches de données Web3 - un virage vers des écosystèmes de données décentralisés, détenus par les utilisateurs.

L'émergence des couches de données

Dans Web3, il existe un écosystème croissant de couches de données, de protocoles et d'infrastructures axés sur la souveraineté des données personnelles - l'idée de donner aux individus plus de contrôle sur leurs données, avec des options pour les monétiser.

1. Vana

@vana's mission principale est de donner aux utilisateurs le contrôle de leurs données, particulièrement dans le contexte de l'IA, où les données sont inestimables pour l'entraînement des modèles.

Vana introduit les DataDAOs, des entités communautaires où les utilisateurs regroupent leurs données pour en tirer des bénéfices collectifs. Chaque DataDAO se concentre sur un ensemble de données spécifique :

  • r/datadao: Se concentre sur les données des utilisateurs de Reddit, permettant aux utilisateurs de contrôler et de monétiser leurs contributions.
  • Volara: Traite des données Twitter, permettant aux utilisateurs de bénéficier de leur activité sur les réseaux sociaux.
  • DNA DAO: Visant à gérer les données génétiques en tenant compte de la confidentialité et de la propriété.

Vana tokenizes data into a tradable asset called “DLP.” Each DLP aggregates data for a specific domain, and users can stake tokens to these pools for rewards, with the top pools being rewarded based on community support and data quality.

Ce qui distingue Vana, c'est sa facilité à contribuer des données. Les utilisateurs simplement:

  1. Choisissez un DataDAO
  2. Pooler leurs données directement via l'intégration de l'API ou les télécharger manuellement
  3. Gagnez des jetons DataDAO et$VANAen tant que récompenses

2. Protocole Ocean

@oceanprotocol est une place de marché de données décentralisée qui permet aux fournisseurs de données de partager, vendre ou concéder sous licence leurs données, tandis que les consommateurs y accèdent pour l'IA et la recherche.

Ocean Protocol utilise des "datatokens" (jetons ERC-20) pour représenter les droits d'accès aux ensembles de données, permettant aux fournisseurs de données de monétiser leurs données tout en maintenant le contrôle sur les conditions d'accès.

Types de données échangées sur Ocean :

  • Données publiques : ensembles de données ouvertes comme les informations météorologiques, les données démographiques publiques ou les données historiques sur les actions — précieuses pour la formation et la recherche en IA.
  • Données privées: dossiers médicaux, transactions financières, données des capteurs IoT ou données utilisateur personnalisées - nécessite des contrôles de confidentialité stricts.

Compute-to-Data est une autre fonctionnalité clé d'Ocean, permettant d'effectuer des calculs sur les données sans les déplacer, garantissant ainsi la confidentialité et la sécurité des ensembles de données sensibles.

3. Masa

@getmasafise concentre sur la création d'une couche ouverte pour les données d'entraînement de l'IA, fournissant des données en temps réel, de haute qualité et à faible coût pour les agents et les développeurs d'IA.

Masa a lancé deux sous-réseaux sur le réseau Bittensor :

  • Sous-réseau 42 (SN42) : Agrège et traite quotidiennement des millions d'enregistrements de données, servant de base au développement d'agents et d'applications d'IA.
  • Subnet 59 (SN59) - "AI Agent Arena": un environnement compétitif où les agents d'IA, alimentés par des données en temps réel de SN42, rivalisent pour $TAOémissions basées sur des indicateurs de performance tels que la renommée, l'engagement des utilisateurs et l'amélioration de soi.

Masa s'est associé à @virtuals_io, en dotant les agents virtuels de capacités de données en temps réel. Il a également lancé $TAOCAT, présentant ses capacités (actuellement sur Binance Alpha).

4. Open Ledger

@OpenledgerHQconstruit une blockchain spécifiquement adaptée aux données, en particulier pour les applications d'IA et de ML, garantissant une gestion de données sécurisée, décentralisée et vérifiable.

Points clés :

  • Datanets : Des réseaux de collecte de données spécialisés au sein d'OpenLedger qui enrichissent et sélectionnent des données du monde réel pour les applications d'IA.
  • SLMs : des modèles d'IA adaptés à des industries ou applications spécifiques. L'idée est de fournir des modèles qui sont non seulement plus précis pour des cas d'utilisation de niche, mais aussi conformes à la confidentialité et moins sujets aux biais que l'on trouve dans les modèles généralistes
  • Vérification des données: garantit l'exactitude et la fiabilité des données utilisées pour former des modèles linguistiques spécialisés (MLs) précis et fiables pour des cas d'utilisation spécifiques.

La demande de données pour l'entraînement de l'IA

La demande de données de haute qualité pour alimenter l'IA et les agents autonomes est en plein essor. Au-delà de la formation initiale, les agents IA nécessitent des données en temps réel pour un apprentissage et une adaptation continus.

Principaux défis et opportunités :

  • Qualité des données plutôt que quantité : les modèles d'IA nécessitent des données de haute qualité, diversifiées et pertinentes pour éviter les biais ou les mauvaises performances.
  • Souveraineté des données et confidentialité : Comme on peut le voir avec Vana, il y a une poussée pour la monétisation des données détenues par les utilisateurs, ce qui pourrait remodeler la façon dont les données d'entraînement de l'IA sont sourcées.
  • Données synthétiques : Avec les préoccupations en matière de confidentialité, les données synthétiques gagnent en popularité comme moyen de former des modèles d'IA tout en atténuant les problèmes éthiques.
  • Marché des données: La montée des places de marché de données (centralisées et décentralisées) crée une économie où les données sont un actif échangeable.
  • IA pour la gestion des données: l'IA est désormais utilisée pour gérer, nettoyer et améliorer les ensembles de données, améliorant ainsi la qualité des données pour l'entraînement de l'IA.

À mesure que les agents d'IA deviennent plus autonomes, leur capacité à accéder et à traiter des données en temps réel et de haute qualité déterminera leur efficacité. Cette demande croissante a conduit à la montée des places de marché de données spécifiques aux agents d'IA, où les humains et les agents d'IA peuvent puiser dans des données d'agents d'IA de haute qualité.

Marché des données pour les agents Web3

  • @cookiedotfunagrège le sentiment social de l'agent IA & les données liées aux jetons, les transformant en informations exploitables pour les agents humains et IA.
  • L'API Cookie DataSwarm permet aux agents d'IA d'accéder à des données actuelles et de haute qualité pour des informations liées aux échanges - l'un des cas d'utilisation les plus recherchés dans la crypto.
  • Cookie revendique 200 000 MAU et 20 000 DAU, ce qui en fait l'un des plus grands marchés de données d'agents d'IA avec $COOKIEau centre.

Autres acteurs clés:

  • @GoatIndexAIse concentre sur les insights de l'écosystème Solana.
  • @Decentralisedcose spécialise dans des tableaux de bord de données de niche comme les dépôts GitHub et les analyses spécifiques aux projets.

Clôture de la partie 1

Ce n'est que le début. La partie 2 plongera plus en profondeur dans :

  • Les défis et opportunités évolutifs dans l'économie des données
  • Le rôle des données synthétiques dans la formation à l'IA
  • Préoccupations concernant la confidentialité des données et comment elles sont traitées
  • L'avenir de l'entraînement de l'IA décentralisée

Qui contrôle les données façonnera l'avenir, et les projets se développant dans ce secteur définiront la manière dont les données sont possédées, partagées et monétisées à l'ère de l'IA. Alors que la demande de données de haute qualité continue de croître, la course à la création d'une économie des données plus transparente et appartenant aux utilisateurs ne fait que commencer.

Restez à l'écoute pour la partie 2!

Note personnelle : Merci de lire ! Si vous êtes dans Crypto IA et que vous voulez vous connecter, n'hésitez pas à me contacter en DM.

Si vous souhaitez présenter un projet, veuillez utiliser le formulaire dans ma biographie - il a la priorité sur les messages privés.

Avertissement complet : Ce document est destiné à des fins d'information et de divertissement uniquement. Les opinions exprimées dans ce document ne doivent pas être interprétées comme des conseils en investissement ou des recommandations. Les destinataires de ce document doivent faire preuve de diligence raisonnable en tenant compte de leurs circonstances financières spécifiques, de leurs objectifs d'investissement et de leur tolérance au risque (qui ne sont pas pris en compte dans ce document) avant d'investir. Ce document n'est pas une offre, ni une sollicitation d'offre, d'achat ou de vente des actifs mentionnés ici.

Avertissement :

  1. Cet article est reproduit deX. Le droit d'auteur appartient à l'auteur original [@Defi0xJeff]. S'il y a des objections à la reproduction, veuillez contacter legate Apprendre Équipe, et l'équipe le traitera selon les procédures pertinentes.
  2. Clause de non-responsabilité: Les points de vue et opinions exprimés dans cet article sont uniquement ceux de l'auteur et ne constituent pas des conseils en investissement.
  3. L'équipe Learn de gate a traduit l'article dans d'autres langues. Copier, distribuer ou plagier les articles traduits est interdit sauf mention contraire.

Mes données ne sont pas à moi : l'émergence des couches de données

Intermédiaire2/10/2025, 4:24:36 AM
Les discussions sur la propriété des données et la confidentialité se sont intensifiées. Les protocoles de données Web3 comme Vana, Ocean Protocol et Masa émergent, favorisant la souveraineté des données décentralisée et permettant aux utilisateurs de contrôler et monétiser leurs données, en particulier dans la formation à l'IA et l'acquisition de données en temps réel. Ces protocoles offrent de nouvelles solutions pour le commerce des données et la protection de la vie privée, répondant à la demande croissante de données de haute qualité.

Les données sont l'or numérique à l'ère où l'attention est en ligne. Le temps d'écran moyen mondial en 2024 est de 6 heures et 40 minutes par jour, en augmentation par rapport aux années précédentes. Aux États-Unis, la moyenne est encore plus élevée à 7 heures et 3 minutes par jour.

Avec ce niveau d'engagement, le volume de données générées est stupéfiant - 328,77 millions de téraoctets sont créés chaque jour en 2024. Cela équivaut à environ 0,4 zettaoctets (ZB) par jour en tenant compte de toutes les données nouvellement générées, capturées, copiées ou consommées.

Pourtant, malgré les énormes quantités de données produites et consommées quotidiennement, les utilisateurs en possèdent très peu :

  • Médias sociaux : Les données sur des plateformes telles que Twitter, Instagram et d'autres sont contrôlées par les entreprises, même si les utilisateurs les génèrent.
  • Internet des objets (IdO) : Les données provenant des appareils intelligents appartiennent généralement au fabricant de l'appareil ou au fournisseur de services, sauf indication contraire dans des accords spécifiques.
  • Données de santé: Bien que les individus aient des droits sur leurs dossiers médicaux, une grande partie des données provenant d'applications de santé ou d'appareils portables est contrôlée par les entreprises qui fournissent ces services.

Données cryptographiques et sociales

En crypto, nous avons vu l'émergence de @_kaitoai, qui indexe les données sociales sur Twitter et les traduit en données de sentiment exploitables pour les projets, KOLs et leaders d'opinion. Les mots «yap» et «mindshare» ont été popularisés par l'équipe Kaito en raison de leur expertise en growth hacking (avec leurs tableaux de bord populaires mindshare & yapper) et de leur capacité à susciter un intérêt organique sur Crypto Twitter.

« Yap » vise à encourager la création de contenu de qualité sur Twitter, mais de nombreuses questions restent sans réponse :

  • À quel point les yaps sont-ils « exactement » notés ?
  • Obtenez-vous du yap supplémentaire en mentionnant Kaito ?
  • Est-ce que Kaito récompense vraiment le contenu de qualité, ou favorise-t-il les prises de position controversées?

Au-delà des données sociales, les discussions sur la propriété des données, la vie privée et la transparence s'intensifient. Avec l'avancée rapide de l'IA, de nouvelles questions émergent : À qui appartiennent les données utilisées pour former les modèles d'IA ? Qui bénéficie des résultats générés par l'IA ?

Ces questions posent les bases de l'émergence des couches de données Web3 - un virage vers des écosystèmes de données décentralisés, détenus par les utilisateurs.

L'émergence des couches de données

Dans Web3, il existe un écosystème croissant de couches de données, de protocoles et d'infrastructures axés sur la souveraineté des données personnelles - l'idée de donner aux individus plus de contrôle sur leurs données, avec des options pour les monétiser.

1. Vana

@vana's mission principale est de donner aux utilisateurs le contrôle de leurs données, particulièrement dans le contexte de l'IA, où les données sont inestimables pour l'entraînement des modèles.

Vana introduit les DataDAOs, des entités communautaires où les utilisateurs regroupent leurs données pour en tirer des bénéfices collectifs. Chaque DataDAO se concentre sur un ensemble de données spécifique :

  • r/datadao: Se concentre sur les données des utilisateurs de Reddit, permettant aux utilisateurs de contrôler et de monétiser leurs contributions.
  • Volara: Traite des données Twitter, permettant aux utilisateurs de bénéficier de leur activité sur les réseaux sociaux.
  • DNA DAO: Visant à gérer les données génétiques en tenant compte de la confidentialité et de la propriété.

Vana tokenizes data into a tradable asset called “DLP.” Each DLP aggregates data for a specific domain, and users can stake tokens to these pools for rewards, with the top pools being rewarded based on community support and data quality.

Ce qui distingue Vana, c'est sa facilité à contribuer des données. Les utilisateurs simplement:

  1. Choisissez un DataDAO
  2. Pooler leurs données directement via l'intégration de l'API ou les télécharger manuellement
  3. Gagnez des jetons DataDAO et$VANAen tant que récompenses

2. Protocole Ocean

@oceanprotocol est une place de marché de données décentralisée qui permet aux fournisseurs de données de partager, vendre ou concéder sous licence leurs données, tandis que les consommateurs y accèdent pour l'IA et la recherche.

Ocean Protocol utilise des "datatokens" (jetons ERC-20) pour représenter les droits d'accès aux ensembles de données, permettant aux fournisseurs de données de monétiser leurs données tout en maintenant le contrôle sur les conditions d'accès.

Types de données échangées sur Ocean :

  • Données publiques : ensembles de données ouvertes comme les informations météorologiques, les données démographiques publiques ou les données historiques sur les actions — précieuses pour la formation et la recherche en IA.
  • Données privées: dossiers médicaux, transactions financières, données des capteurs IoT ou données utilisateur personnalisées - nécessite des contrôles de confidentialité stricts.

Compute-to-Data est une autre fonctionnalité clé d'Ocean, permettant d'effectuer des calculs sur les données sans les déplacer, garantissant ainsi la confidentialité et la sécurité des ensembles de données sensibles.

3. Masa

@getmasafise concentre sur la création d'une couche ouverte pour les données d'entraînement de l'IA, fournissant des données en temps réel, de haute qualité et à faible coût pour les agents et les développeurs d'IA.

Masa a lancé deux sous-réseaux sur le réseau Bittensor :

  • Sous-réseau 42 (SN42) : Agrège et traite quotidiennement des millions d'enregistrements de données, servant de base au développement d'agents et d'applications d'IA.
  • Subnet 59 (SN59) - "AI Agent Arena": un environnement compétitif où les agents d'IA, alimentés par des données en temps réel de SN42, rivalisent pour $TAOémissions basées sur des indicateurs de performance tels que la renommée, l'engagement des utilisateurs et l'amélioration de soi.

Masa s'est associé à @virtuals_io, en dotant les agents virtuels de capacités de données en temps réel. Il a également lancé $TAOCAT, présentant ses capacités (actuellement sur Binance Alpha).

4. Open Ledger

@OpenledgerHQconstruit une blockchain spécifiquement adaptée aux données, en particulier pour les applications d'IA et de ML, garantissant une gestion de données sécurisée, décentralisée et vérifiable.

Points clés :

  • Datanets : Des réseaux de collecte de données spécialisés au sein d'OpenLedger qui enrichissent et sélectionnent des données du monde réel pour les applications d'IA.
  • SLMs : des modèles d'IA adaptés à des industries ou applications spécifiques. L'idée est de fournir des modèles qui sont non seulement plus précis pour des cas d'utilisation de niche, mais aussi conformes à la confidentialité et moins sujets aux biais que l'on trouve dans les modèles généralistes
  • Vérification des données: garantit l'exactitude et la fiabilité des données utilisées pour former des modèles linguistiques spécialisés (MLs) précis et fiables pour des cas d'utilisation spécifiques.

La demande de données pour l'entraînement de l'IA

La demande de données de haute qualité pour alimenter l'IA et les agents autonomes est en plein essor. Au-delà de la formation initiale, les agents IA nécessitent des données en temps réel pour un apprentissage et une adaptation continus.

Principaux défis et opportunités :

  • Qualité des données plutôt que quantité : les modèles d'IA nécessitent des données de haute qualité, diversifiées et pertinentes pour éviter les biais ou les mauvaises performances.
  • Souveraineté des données et confidentialité : Comme on peut le voir avec Vana, il y a une poussée pour la monétisation des données détenues par les utilisateurs, ce qui pourrait remodeler la façon dont les données d'entraînement de l'IA sont sourcées.
  • Données synthétiques : Avec les préoccupations en matière de confidentialité, les données synthétiques gagnent en popularité comme moyen de former des modèles d'IA tout en atténuant les problèmes éthiques.
  • Marché des données: La montée des places de marché de données (centralisées et décentralisées) crée une économie où les données sont un actif échangeable.
  • IA pour la gestion des données: l'IA est désormais utilisée pour gérer, nettoyer et améliorer les ensembles de données, améliorant ainsi la qualité des données pour l'entraînement de l'IA.

À mesure que les agents d'IA deviennent plus autonomes, leur capacité à accéder et à traiter des données en temps réel et de haute qualité déterminera leur efficacité. Cette demande croissante a conduit à la montée des places de marché de données spécifiques aux agents d'IA, où les humains et les agents d'IA peuvent puiser dans des données d'agents d'IA de haute qualité.

Marché des données pour les agents Web3

  • @cookiedotfunagrège le sentiment social de l'agent IA & les données liées aux jetons, les transformant en informations exploitables pour les agents humains et IA.
  • L'API Cookie DataSwarm permet aux agents d'IA d'accéder à des données actuelles et de haute qualité pour des informations liées aux échanges - l'un des cas d'utilisation les plus recherchés dans la crypto.
  • Cookie revendique 200 000 MAU et 20 000 DAU, ce qui en fait l'un des plus grands marchés de données d'agents d'IA avec $COOKIEau centre.

Autres acteurs clés:

  • @GoatIndexAIse concentre sur les insights de l'écosystème Solana.
  • @Decentralisedcose spécialise dans des tableaux de bord de données de niche comme les dépôts GitHub et les analyses spécifiques aux projets.

Clôture de la partie 1

Ce n'est que le début. La partie 2 plongera plus en profondeur dans :

  • Les défis et opportunités évolutifs dans l'économie des données
  • Le rôle des données synthétiques dans la formation à l'IA
  • Préoccupations concernant la confidentialité des données et comment elles sont traitées
  • L'avenir de l'entraînement de l'IA décentralisée

Qui contrôle les données façonnera l'avenir, et les projets se développant dans ce secteur définiront la manière dont les données sont possédées, partagées et monétisées à l'ère de l'IA. Alors que la demande de données de haute qualité continue de croître, la course à la création d'une économie des données plus transparente et appartenant aux utilisateurs ne fait que commencer.

Restez à l'écoute pour la partie 2!

Note personnelle : Merci de lire ! Si vous êtes dans Crypto IA et que vous voulez vous connecter, n'hésitez pas à me contacter en DM.

Si vous souhaitez présenter un projet, veuillez utiliser le formulaire dans ma biographie - il a la priorité sur les messages privés.

Avertissement complet : Ce document est destiné à des fins d'information et de divertissement uniquement. Les opinions exprimées dans ce document ne doivent pas être interprétées comme des conseils en investissement ou des recommandations. Les destinataires de ce document doivent faire preuve de diligence raisonnable en tenant compte de leurs circonstances financières spécifiques, de leurs objectifs d'investissement et de leur tolérance au risque (qui ne sont pas pris en compte dans ce document) avant d'investir. Ce document n'est pas une offre, ni une sollicitation d'offre, d'achat ou de vente des actifs mentionnés ici.

Avertissement :

  1. Cet article est reproduit deX. Le droit d'auteur appartient à l'auteur original [@Defi0xJeff]. S'il y a des objections à la reproduction, veuillez contacter legate Apprendre Équipe, et l'équipe le traitera selon les procédures pertinentes.
  2. Clause de non-responsabilité: Les points de vue et opinions exprimés dans cet article sont uniquement ceux de l'auteur et ne constituent pas des conseils en investissement.
  3. L'équipe Learn de gate a traduit l'article dans d'autres langues. Copier, distribuer ou plagier les articles traduits est interdit sauf mention contraire.
เริ่มตอนนี้
สมัครและรับรางวัล
$100