La division QVAC de Tether a annoncé le 17 mars 2026 le lancement du premier cadre de fine-tuning LoRA multiplateforme au monde pour les modèles BitNet de Microsoft (LLMs 1-bit), permettant l’entraînement et l’inférence d’IA à milliards de paramètres sur des GPU grand public et des smartphones.

Ce cadre, intégré dans QVAC Fabric, réduit suffisamment la mémoire et la puissance de calcul pour affiner des modèles jusqu’à 13 milliards de paramètres sur des appareils tels que l’iPhone 16, le Galaxy S25 et le Pixel 9, avec des modèles de 125 millions de paramètres pouvant être entraînés en environ 10 minutes sur du matériel mobile.

Cette sortie marque une étape importante dans la stratégie de Tether, qui passe d’un émetteur de stablecoins à un fournisseur d’infrastructure plus large, remettant en question le modèle centralisé de développement de l’IA dominé par les fournisseurs de cloud et le matériel spécialisé NVIDIA.

Percée technique : BitNet LoRA sur appareils Edge

Capacités multiplateformes

Le cadre QVAC Fabric permet le fine-tuning LoRA (Low-Rank Adaptation) et l’accélération de l’inférence sur du matériel grand public hétérogène, notamment :

GPU de bureau : AMD, Intel, NVIDIA

Écosystème Apple : puces Apple Silicon M et GPU mobiles Bionic

GPU mobiles : Adreno (Samsung), Mali, et autres

Cette compatibilité étendue élimine la nécessité précédente de systèmes NVIDIA de niveau entreprise ou d’infrastructures cloud, qui concentraient le développement de l’IA parmi les organisations disposant de budgets matériels spécialisés.

Benchmarks de performance mobile

L’équipe d’ingénierie de Tether a démontré une fine-tuning réussie sur des smartphones phares avec les résultats suivants :

Modèles 125M de paramètres : la fine-tuning sur un Galaxy S25 (GPU Adreno) se termine en environ 10 minutes pour un jeu de données biomédical d’environ 300 documents (~18k tokens)

Modèles 1 milliard de paramètres : la fine-tuning du même jeu de données biomédical se termine en 1 heure 18 minutes sur Galaxy S25 et en 1 heure 45 minutes sur iPhone 16

Capacité maximale : des modèles jusqu’à 13 milliards de paramètres ont été affiné avec succès sur iPhone 16, dépassant largement les capacités typiques de démonstration de modèles sous 3 milliards de paramètres

Gains en performance d’inférence

L’inférence BitNet sur GPU mobiles montre une accélération significative par rapport aux baselines CPU :

Amélioration de la vitesse : performance GPU entre 2 et 11 fois plus rapide que le CPU sur les appareils testés
Implication pratique : les GPU mobiles peuvent désormais supporter des charges de travail auparavant nécessitant du matériel spécialisé coûteux ou des centres de données

Avantages en efficacité mémoire

Réductions quantifiables

Les benchmarks montrent des économies de mémoire importantes par rapport aux modèles conventionnels :

BitNet-1B (TQ1_0) : utilise jusqu’à 77,8 % de VRAM en moins que Gemma-3-1B (16 bits)
Comparé à Qwen3-0.6B : 65,6 % de VRAM en moins que la version 16 bits

Ces réductions s’appliquent aussi bien à l’inférence qu’au fine-tuning LoRA, créant un espace mémoire significatif pour des modèles plus grands et des workflows de personnalisation sur du matériel auparavant considéré comme insuffisant.

Avantages architecturaux

Le cadre permet de fine-tuner des modèles deux fois plus grands sur des appareils Edge par rapport aux modèles Q4 non-BitNet, démontrant l’efficacité mémoire supérieure de l’architecture BitNet.

Implications stratégiques

Décentralisation du développement de l’IA

Le PDG de Tether, Paolo Ardoino, a présenté la sortie dans une vision plus large d’une IA accessible : « L’intelligence sera un facteur clé dans l’avenir de la société. Quand la formation de grands modèles linguistiques dépend d’infrastructures centralisées, l’innovation stagne, l’écosystème devient fragile, et l’équilibre sociétal est mis en danger. En permettant la formation significative de grands modèles sur du matériel grand public, y compris les smartphones, QVAC de Tether prouve que l’IA avancée peut être décentralisée, inclusive et habilitante pour tous. »

Facilitation de l’apprentissage fédéré

Les gains d’efficacité rendent possible l’apprentissage fédéré, permettant de former et de partager des mises à jour affinées sur des appareils distribués tout en conservant les données sensibles localement. Cela réduit la dépendance à une infrastructure centralisée tout en favorisant l’amélioration collaborative des modèles.

Avantages pour la confidentialité des données

En réduisant la dépendance aux fournisseurs de cloud, le cadre permet aux utilisateurs de garder leurs données sensibles localement lors du fine-tuning, répondant ainsi aux préoccupations de confidentialité liées à la transmission de données vers des serveurs centralisés.

Positionnement concurrentiel

Défier la domination des géants de la tech dans l’IA

La sortie de Tether remet en question directement le modèle centralisé de développement de l’IA dominé par les hyperscalers et fournisseurs de cloud. En permettant un travail d’IA significatif sur du matériel grand public, l’entreprise se positionne comme un acteur de l’infrastructure dans la pile Edge AI, indépendant des juridictions cloud traditionnelles.

Distribution open source

Le cadre, y compris le papier, les adaptateurs, les benchmarks et les binaires multiplateformes, est disponible sur Hugging Face. Cette approche open source vise à établir QVAC comme une voie par défaut pour les développeurs indépendants et les petits laboratoires souhaitant déployer l’IA sur du matériel grand public, en créant une pertinence culturelle et technique en dehors des cadres réglementaires traditionnels.

Pivot stratégique de Tether

Cette sortie poursuit l’expansion de Tether au-delà de l’émission de stablecoins vers une infrastructure numérique critique, suite à des initiatives précédentes comme le jeu de données Genesis I de 41 milliards de tokens et l’AI Workbench local. La société a indiqué continuer à investir dans une infrastructure d’IA décentralisée dans les semaines, mois et années à venir.

Disponibilité technique

La documentation technique complète, incluant les benchmarks de performance, les détails d’implémentation et les binaires multiplateformes, est disponible via le blog Hugging Face : « Fine-tuning LoRA BitNet b1.58 LLMs sur GPU Edge hétérogènes via QVAC Fabric. »

À propos de Tether

Tether décrit sa mission comme la promotion de la liberté, de la transparence et de l’innovation par la technologie, permettant un échange d’informations peer-to-peer direct sans intermédiaires inutiles. La société vise à remplacer les modèles centralisés par une infrastructure décentralisée conçue pour la confidentialité, l’efficacité et la résilience.

Questions fréquentes

Quel matériel peut faire fonctionner le nouveau cadre IA de Tether ?

Le cadre QVAC Fabric BitNet LoRA supporte les GPU grand public d’AMD, Intel et NVIDIA ; l’écosystème Apple comprenant les puces Silicon M et les GPU mobiles Bionic ; et les GPU mobiles comme Adreno (Samsung), Mali, et autres. Cela permet le fine-tuning IA sur ordinateurs portables, de bureau et smartphones phares sans matériel d’entreprise spécialisé.

À quelle vitesse l’inférence GPU mobile est-elle par rapport au CPU ?

Selon les benchmarks de Tether, l’inférence sur GPU sur des appareils mobiles phares est entre 2 et 11 fois plus rapide que le CPU. La consommation mémoire diminue jusqu’à 77,8 %, permettant d’exécuter des modèles plus grands dans les mêmes contraintes matérielles.

Quelle est la signification de la fine-tuning de modèles 13 milliards de paramètres sur un téléphone ?

Affiner un modèle de 13 milliards de paramètres sur un smartphone représente une avancée par rapport aux démonstrations d’IA sur appareil, qui tournent généralement autour de modèles sous 3 milliards ou déchargent les charges plus lourdes vers le cloud. Cette capacité suggère un avenir où la personnalisation sérieuse des modèles et l’adaptation spécifique à un domaine peuvent se faire localement, sans envoyer de données utilisateur vers des serveurs centralisés.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.