En 2012, deux événements majeurs ont eu lieu dans le cercle de l'IA. Dans l'ordre chronologique, le premier a été la sortie de Google Brain, une équipe Google de longue date, comme son "premier travail" - un réseau d'apprentissage en profondeur "Google Cat". " qui peut reconnaître les chats, avec 74,8 % de reconnaissance Le taux de précision est supérieur de 0,8 % aux 74 % de l'algorithme gagnant du célèbre concours de reconnaissance d'images ImageNet l'année précédente.
Mais les moments très médiatisés de Google n'ont duré que quelques mois. En décembre 2012, le gagnant du dernier ImageNet est sorti.Le maître de l'apprentissage en profondeur Hinton et ses disciples ont apporté le réseau neuronal convolutif AlexNet, qui a porté le taux de précision de la reconnaissance à 84 %, amorçant ainsi la révolution de l'IA du prochain. décennie Google Cat a été enterré dans la poussière de l'histoire.
Hinton avec deux étudiants, 2012
Ce n'est pas seulement le modèle ImageNet lui-même qui a choqué l'industrie. Ce réseau de neurones, qui nécessite 14 millions d'images et un total de 262 pétaflops d'opérations en virgule flottante, n'a utilisé que quatre NVIDIA Geforce GTX 580 pendant une semaine de formation. Pour référence, Google Cat a utilisé 10 millions d'images, 16 000 processeurs et 1 000 ordinateurs [1] 。
On dit que Google a également participé secrètement au concours cette année, et le choc qu'il a reçu s'est directement reflété dans l'action suivante : Google a dépensé 44 millions de dollars pour acquérir l'équipe Hinton, et a immédiatement passé une commande à Nvidia pour un grand nombre de GPU. pour l'intelligence artificielle.Formation, et en même temps "biens de balayage" sont aussi des géants tels que Microsoft et Facebook.
** Nvidia est devenu le plus grand gagnant et le cours de son action a été multiplié par 121 au maximum au cours des 10 années suivantes. Un empire est né. **
Mais sur l'empire, deux nuages sombres se sont peu à peu rassemblés. Google, qui achetait des produits à Nvidia à l'époque, a fait des débuts époustouflants avec AlphaGo trois ans plus tard et a battu le champion humain Ke Jie en 2017. Les passionnés ont découvert que la puce pilotant AlphaGo n'est plus le GPU de Nvidia, mais la puce TPU développée par Google.
Trois ans plus tard, un scénario similaire se répète. Tesla, autrefois considéré comme un client de référence par Huang Renxun, a également fait ses adieux au GPU Nvidia.Il a d'abord lancé la puce de véhicule FSD avec NPU comme cœur, puis a sorti la puce D1 utilisée pour construire des clusters de formation IA.Li a perdu deux de ses les clients les plus importants de l'ère de l'IA.
D'ici 2022, le cycle informatique mondial entrera dans une phase descendante. Les principales sociétés de cloud computing réduiront les budgets d'achat de GPU pour les centres de données, et la marée de l'extraction de blockchain se refroidira progressivement. De plus, l'interdiction américaine des puces sur la Chine rendra impossible pour vendre A100/H100 à la Chine. Pour les cartes graphiques haut de gamme, les stocks de Nvidia ont bondi et le cours de son action a chuté de 2/3 par rapport à son sommet.
Fin 2022, ChatGPT est né, et les GPU, comme carburant de "l'alchimie" à grande échelle, ont de nouveau été pillés.Nvidia a obtenu un répit, mais le troisième nuage noir a suivi : le 18 avril 2023, le célèbre média technologique The Information a annoncé la nouvelle :* Microsoft, l'initiateur de cette vague d'IA, développe secrètement sa propre puce d'IA* [2] 。
Cette puce appelée Athena est fabriquée par TSMC et utilise un procédé avancé de 5 nm. Le nombre d'équipes de R&D de Microsoft est proche de 300. Évidemment, l'objectif de cette puce est de remplacer le coûteux A100/H100, de fournir un moteur de puissance de calcul pour OpenAI, et finira par arracher le gâteau de Nvidia via le service cloud Azure de Microsoft.
Microsoft est actuellement le plus gros acheteur du H100 de Nvidia, et il a même été dit qu'il « bouclerait » la capacité de production du H100 sur toute l'année. Le signal de rupture de Microsoft est sans aucun doute un coup de tonnerre, il faut savoir que même au plus sombre d'Intel, aucun de ses clients "n'ose" fabriquer ses propres puces CPU (à l'exception d'Apple qui ne les vend pas à l'extérieur) .
Alors que Nvidia monopolise actuellement 90% du marché de la puissance de calcul de l'IA avec GPU+NVlink+CUDA, le premier crack est apparu dans l'empire **. **
01, le GPU qui n'est pas né pour l'IA
Dès le début, les GPU n'étaient pas faits pour l'IA.
En octobre 1999, Nvidia sort la GeForce 256, une puce de traitement graphique basée sur le procédé 220nm de TSMC et intégrant 23 millions de transistors. Nvidia a extrait les initiales "GPU" du Graphics Processing Unit, et surnommé GeForce 256 "le premier GPU au monde", qui a habilement défini la nouvelle catégorie de GPU et occupé l'esprit des utilisateurs de ce mot jusqu'à aujourd'hui.
À l'heure actuelle, l'intelligence artificielle est restée silencieuse pendant de nombreuses années, en particulier dans le domaine des réseaux de neurones profonds. Les futurs lauréats du prix Turing tels que Geoffery Hinton et Yann LeCun sont toujours assis sur le banc académique, et ils ne pensent jamais à leur carrière. , sera complètement changé par un GPU développé à l'origine pour les joueurs.
Pour qui le GPU est-il né ? image. Plus précisément, il est né pour libérer le CPU de la corvée de l'affichage graphique. Le principe de base de l'affichage d'image est de diviser l'image de chaque image en pixels individuels, puis d'effectuer plusieurs processus de rendu tels que le traitement des sommets, le traitement primitif, la rastérisation, le traitement des fragments, l'opération sur les pixels, etc., et enfin l'affichage à l'écran.
Source du processus de traitement des pixels aux images : compendium graphique
Pourquoi dites-vous que c'est un travail difficile ? Faites un problème arithmétique simple :
En supposant qu'il y a 300 000 pixels à l'écran, calculés à une fréquence d'images de 60 ips, 18 millions de rendus par seconde doivent être effectués, en incluant à chaque fois les cinq étapes ci-dessus, correspondant à cinq instructions, c'est-à-dire que le CPU doit effectuer 90 millions d'instructions par seconde pour réaliser une présentation d'écran d'une seconde.À titre de référence, le processeur le plus performant d'Intel à l'époque n'avait que 60 millions de calculs par seconde.
Ce n'est pas parce que le processeur est faible, mais parce qu'il est bon pour l'ordonnancement des threads, donc plus d'espace est donné à l'unité de contrôle et à l'unité de stockage, et l'unité de calcul utilisée pour le calcul n'occupe que 20 % de l'espace. Au contraire, le GPU occupe plus de 80% de l'espace est l'unité de calcul, ce qui apporte des capacités de calcul super parallèles, et est plus adapté au travail à pas fixe, répétitif et ennuyeux de l'affichage d'images.
La structure interne du CPU et du GPU, la partie verte est l'unité de calcul
Ce n'est que quelques années plus tard que certains spécialistes de l'intelligence artificielle se sont rendus compte que les GPU dotés de telles caractéristiques convenaient également à l'apprentissage en profondeur. De nombreuses architectures classiques de réseaux de neurones profonds ont été proposées dès la seconde moitié du XXe siècle, mais faute de matériel informatique pour les former, de nombreuses études ne peuvent être que "sur papier", et le développement stagne depuis longtemps. temps.
Un coup de feu en octobre 1999 a amené les GPU à l'intelligence artificielle. Le processus d'apprentissage de l'apprentissage en profondeur consiste à effectuer des opérations hiérarchiques sur chaque valeur d'entrée en fonction des fonctions et des paramètres de chaque couche du réseau de neurones, et enfin d'obtenir une valeur de sortie, ce qui nécessite un grand nombre d'opérations matricielles tout comme le rendu graphique. se trouve être ce que le GPU est le mieux à faire.
Une architecture typique de réseau de neurones profonds ; source : vers la science des données
Cependant, l'image montre que bien que la quantité de traitement de données soit énorme, la plupart des étapes sont fixes.Une fois le réseau de neurones profond appliqué au domaine de la prise de décision, il impliquera des situations complexes telles que les structures de branche et les paramètres de chaque couche doit être formée sur la base de données massives, positives et négatives. Ces différences ont posé des dangers cachés pour l'adaptabilité des GPU à l'IA à l'avenir.
Aujourd'hui, le directeur général d'Amazon AI/ML, Kumar Chellapilla, est le premier chercheur à manger des crabes GPU. En 2006, il a utilisé la carte graphique GeForce 7800 de Nvidia pour implémenter le réseau neuronal convolutif (CNN) pour la première fois et a constaté qu'il était 4 fois plus rapide que d'utiliser un processeur. Il s'agit de la première tentative connue d'utilisation de GPU pour l'apprentissage en profondeur [3] 。
Kumar Chellapilla et Nvidia Geforce 7800
Le travail de Kumar n'a pas beaucoup attiré l'attention, principalement en raison de la grande complexité de la programmation basée sur le GPU. Mais juste à ce moment-là, Nvidia a lancé la plate-forme CUDA en 2007, ce qui a considérablement réduit la difficulté pour les développeurs d'utiliser le GPU pour former des réseaux de neurones profonds, ce qui a donné plus d'espoir aux croyants en apprentissage en profondeur.
Puis en 2009, Wu Enda de Stanford et d'autres ont publié un article révolutionnaire [6] , le GPU réduit le temps de formation de l'IA de quelques semaines à quelques heures grâce à plus de 70 fois la puissance de calcul du CPU. Cet article montre la voie pour l'implémentation matérielle de l'intelligence artificielle. Le GPU a considérablement accéléré le processus de l'IA du papier à la réalité.
Andrew Ng (吴恩达)
Il convient de mentionner que Wu Enda a rejoint Google Brain en 2011 et est l'un des leaders du projet Google Cat mentionné au début. La raison pour laquelle Google Brain n'a finalement pas réussi à utiliser le GPU est inconnue des étrangers, mais avant et après que Wu Enda ait quitté Google pour rejoindre Baidu, il y a eu des rumeurs selon lesquelles c'était parce que l'attitude de Google envers le GPU n'était pas claire.
**Après l'exploration d'innombrables personnes, le relais a finalement été remis au maître de l'apprentissage en profondeur Hinton, et le temps a déjà pointé vers 2012. **
En 2012, Hinton et deux étudiants, Alex Krizhevsky et Ilya Sutskeverz, ont conçu un réseau de neurones à convolution profonde, AlexNet, et ont prévu de participer au concours ImageNet cette année. Mais le problème est que cela peut prendre plusieurs mois pour former AlexNet avec un CPU, alors ils se sont tournés vers le GPU.
Ce GPU, crucial dans l'histoire du développement du deep learning, est la fameuse "carte graphique bombe nucléaire" GTX 580. En tant que produit phare de la dernière architecture Fermi de Nvidia, la GTX 580 est truffée de 512 cœurs CUDA (108 dans la génération précédente).Alors que la puissance de calcul bondit, les problèmes de consommation électrique exagérée et de génération de chaleur ont également fait de Nvidia le nom de "Nuclear Bomb Factory". ".
L'arsenic de A, le miel de B. Comparé à la "lisibilité" lors de la formation de réseaux de neurones avec des GPU, le problème de dissipation thermique n'est pas à mentionner. L'équipe Hinton a terminé avec succès la programmation avec la plate-forme CUDA de Nvidia.Avec le support de deux cartes graphiques GTX 580, la formation de 14 millions d'images n'a pris qu'une semaine et AlexNet a remporté le championnat avec succès.
** En raison de l'influence du concours ImageNet et de Hinton lui-même, tous les spécialistes de l'intelligence artificielle ont réalisé en un instant l'importance du GPU. **
Deux ans plus tard, Google a pris le modèle GoogLeNet pour participer à ImageNet et a remporté le championnat avec un taux de précision de 93 %, en utilisant des GPU NVIDIA. Cette année, le nombre de GPU utilisés par toutes les équipes participantes a grimpé à 110. En dehors des compétitions, le GPU est devenu une "consommation incontournable" pour l'apprentissage en profondeur, envoyant à Huang Renxun un flux constant de commandes.
Cela a permis à Nvidia de se débarrasser de l'ombre du fiasco sur le marché mobile.Après la sortie de l'iPhone en 2007, le gâteau des puces pour smartphones s'est rapidement élargi.Nvidia a également tenté d'obtenir une part du gâteau de Samsung, Qualcomm et MediaTek. Le problème de dissipation thermique a échoué. Au final, c'est le domaine de l'intelligence artificielle sauvé par le GPU qui a donné à Nvidia une deuxième courbe de croissance.
Mais après tout, le GPU n'est pas né pour former des réseaux de neurones : plus l'intelligence artificielle se développera rapidement, plus ces problèmes seront exposés.
Par exemple, bien que le GPU soit très différent du CPU, les deux suivent essentiellement la structure de von Neumann, et le stockage et le fonctionnement sont séparés. Le goulot d'étranglement d'efficacité provoqué par cette séparation, après tout, les étapes de traitement d'image sont relativement fixes et peuvent être résolues par des opérations plus parallèles, mais il est très fatal dans un réseau de neurones avec de nombreuses structures de branches.
Chaque fois qu'un réseau de neurones ajoute une couche ou une branche, il doit augmenter un accès mémoire pour stocker des données pour le retour en arrière, et le temps passé à cela est inévitable. Surtout à l'ère des grands modèles, plus le modèle est grand, plus il faut effectuer d'opérations d'accès à la mémoire - l'énergie consommée dans l'accès à la mémoire est plusieurs fois supérieure à celle de l'informatique.
Une analogie simple est que le GPU est un homme musclé (avec de nombreuses unités de calcul), mais pour chaque instruction reçue, il doit revenir en arrière et regarder le manuel d'instructions (mémoire).Enfin, à mesure que la taille et la complexité du modèle augmentent , l'homme Le temps pour le vrai travail est très limité, et au lieu de cela, je suis tellement fatigué de feuilleter des manuels que j'ai la mousse à la bouche.
Les problèmes de mémoire ne sont que l'un des nombreux "inconforts" des GPU dans les applications de réseau neuronal profond. Nvidia était conscient de ces problèmes dès le début et a rapidement commencé à "modifier magiquement" le GPU pour le rendre plus adapté aux scénarios d'application d'intelligence artificielle ; et les joueurs d'IA qui sont parfaitement conscients de l'incendie se faufilent également, essayant d'utiliser les défauts du GPU pour ouvrir le coin de l'empire de Huang Renxun.
** Une bataille offensive et défensive commence. **
02, la sombre bataille entre Google et Nvidia
Face à la demande écrasante de puissance de calcul de l'IA et aux défauts congénitaux du GPU, Huang Renxun a proposé deux ensembles de solutions pour aller de pair.
**Le premier ensemble est de continuer à accumuler violemment la puissance de calcul sur le chemin de "la vieille fée de la puissance de calcul a un pouvoir magique illimité". ** À une époque où la demande de puissance de calcul de l'IA double tous les 3,5 mois, la puissance de calcul est la carotte qui pend devant les yeux des sociétés d'intelligence artificielle, ce qui les fait gronder Huang Renxun pour ses superbes compétences en matière d'épée tout en l'arrachant comme un chien Toute la capacité de Nvidia.
** Le deuxième ensemble consiste à résoudre progressivement l'inadéquation entre les scénarios GPU et intelligence artificielle grâce à une "innovation améliorée". **Ces problèmes incluent, mais sans s'y limiter, la consommation d'énergie, les murs de mémoire, les goulots d'étranglement de la bande passante, les calculs à faible précision, les connexions à haut débit, les optimisations de modèles spécifiques... Depuis 2012, Nvidia a soudainement accéléré la vitesse des mises à jour de l'architecture.
Après que Nvidia a publié CUDA, il a utilisé une architecture unifiée pour prendre en charge les deux principaux scénarios de graphisme et d'informatique. L'architecture de première génération a fait ses débuts en 2007 et s'appelait Tesla, non pas parce que Huang Renxun voulait montrer sa faveur à Musk, mais pour rendre hommage au physicien Nikola Tesla (la première génération était l'architecture Curie).
Depuis lors, chaque génération d'architecture GPU NVIDIA a été nommée d'après des scientifiques célèbres, comme le montre la figure ci-dessous. A chaque itération de l'architecture, Nvidia continue d'accumuler de la puissance de calcul, tout en s'améliorant sans "se couper les muscles et les os".
Par exemple, l'architecture Fermi de deuxième génération en 2011 présentait l'inconvénient de la dissipation thermique, tandis que l'architecture de troisième génération Kepler en 2012 a fait passer l'idée de conception globale de la haute performance à l'efficacité énergétique pour améliorer la dissipation thermique ; et afin de résoudre les problèmes susmentionnés Pour le problème des "imbéciles musculaires", l'architecture Maxwell de quatrième génération en 2014 a ajouté plus de circuits de contrôle logique à l'intérieur pour faciliter un contrôle précis.
Afin de s'adapter à la scène de l'IA, le GPU "magiquement modifié" de Nvidia ressemble de plus en plus à un CPU dans une certaine mesure - tout comme l'excellente capacité de planification du CPU se fait au détriment de la puissance de calcul, Nvidia doit se restreindre sur l'empilement des cœurs de calcul. Cependant, peu importe comment vous changez le GPU avec le fardeau de la polyvalence, il sera difficile de faire correspondre la puce dédiée dans le scénario AI.
** Le premier à attaquer Nvidia a été Google, qui a été le premier à acheter des GPU à grande échelle pour l'IA computing. **
Après avoir montré ses muscles avec GoogLeNet en 2014, Google n'a plus participé publiquement au concours de reconnaissance des machines et a conspiré pour développer des puces spécifiques à l'IA. En 2016, Google a pris les devants avec AlphaGo.Après avoir remporté Li Shishi, il a immédiatement lancé sa puce AI TPU auto-développée, qui a surpris Nvidia avec une nouvelle architecture « née pour l'IA ».
TPU est l'acronyme de Tensor Processing Unit, et le nom chinois est "Tensor Processing Unit". Si la "réforme magique" du GPU de Nvidia consiste à abattre le mur est pour compenser le mur ouest, alors le TPU doit fondamentalement réduire la demande de stockage et de connexion, et transférer au maximum l'espace de la puce vers le calcul. Plus précisément, les deux Grands signifient :
**Le premier est la technologie quantitative. ** Les calculs informatiques modernes utilisent généralement des données de haute précision, qui occupent beaucoup de mémoire, mais en fait, la plupart des calculs de réseaux de neurones ne nécessitent pas de précision pour atteindre des calculs à virgule flottante de 32 bits ou 16 bits. La technologie consiste essentiellement à combiner 32 bits/16 bits. Les nombres sont approximés en entiers 8 bits, en maintenant une précision appropriée et en réduisant les besoins de stockage.
** Le second est le tableau systolique, ** qui est le tableau de multiplication matricielle, qui est l'une des différences les plus critiques entre le TPU et le GPU. Pour faire simple, les opérations de réseau de neurones nécessitent un grand nombre d'opérations matricielles. Le GPU ne peut désassembler les calculs matriciels en plusieurs calculs vectoriels qu'étape par étape. Chaque fois qu'un groupe est terminé, il doit accéder à la mémoire et enregistrer les résultats de cette couche jusqu'à ce que tous les calculs vectoriels soient terminés. , puis combinez les résultats de chaque couche pour obtenir la valeur de sortie.
Dans le TPU, des milliers d'unités de calcul sont directement connectées pour former un tableau de multiplication matricielle. En tant que cœur de calcul, les calculs matriciels peuvent être effectués directement. À l'exception du chargement des données et des fonctions au début, il n'est pas nécessaire d'accéder aux unités de stockage, ce qui réduit considérablement l'accès.La fréquence accélère considérablement la vitesse de calcul du TPU, et la consommation d'énergie et l'occupation de l'espace physique sont également considérablement réduites.
Comparaison des temps d'accès CPU, GPU, TPU mémoire (mémoire)
Le TPU de Google est très rapide et il n'a fallu que ** 15 mois ** entre la conception, la vérification, la production en série et le déploiement final dans son propre centre de données. Après les tests, les performances et la consommation d'énergie du TPU dans CNN, LSTM, MLP et d'autres scénarios d'IA ont largement dépassé le GPU de Nvidia au cours de la même période. **Toute la pression a été donnée à Nvidia d'un coup. **
Être poignardé par un gros client est inconfortable, mais Nvidia ne résistera pas et ne sera pas battu, et un bras de fer a commencé.
Cinq mois après que Google a lancé le TPU, Nvidia a également introduit l'architecture Pascal du processus 16 nm. D'une part, la nouvelle architecture introduit la célèbre technologie d'interconnexion bidirectionnelle à haut débit NVLink, qui améliore considérablement la bande passante de connexion ; d'autre part, elle imite la technologie de quantification du TPU et améliore l'efficacité de calcul du réseau de neurones en réduisant la précision des données.
En 2017, Nvidia a lancé Volta, la première architecture conçue spécifiquement pour l'apprentissage en profondeur, qui a introduit pour la première fois TensorCore, qui est spécialement utilisé pour les opérations matricielles, bien que le tableau de multiplication 4 × 4 soit le même que le tableau d'impulsions TPU 256 × 256. Le ratio est un peu minable, mais c'est aussi un compromis fait sur la base du maintien de la souplesse et de la polyvalence.
Opération matricielle 4x4 implémentée par TensorCore dans Nvidia V100
Les dirigeants de NVIDIA ont déclaré aux clients : ** "Volta n'est pas une mise à niveau de Pascal, mais une toute nouvelle architecture." **
Google fait également la course contre la montre : après 2016, le TPU a été mis à jour sur 3 générations en cinq ans : il a lancé TPUv2 en 2017, TPUv3 en 2018 et TPUv4 en 2021, et a mis les données sur le visage de Nvidia. [4] : **TPU v4 est 1,2 à 1,7 fois plus rapide que l'A100 de Nvidia, tout en réduisant la consommation d'énergie de 1,3 à 1,9 fois. **
Google ne vend pas de puces TPU au monde extérieur, et continue en même temps d'acheter les GPU de Nvidia en grande quantité, ce qui fait que la concurrence des puces AI entre les deux reste dans la "guerre froide" plutôt que dans la "concurrence ouverte". Mais après tout, Google déploie le TPU dans son propre système de services cloud pour fournir des services de puissance de calcul d'IA au monde extérieur, ce qui réduit sans aucun doute le marché potentiel de Nvidia.
Le PDG de Google, Sundar Picha, présente le TPU v4
Alors que les deux "se battent dans le noir", les progrès dans le domaine de l'intelligence artificielle progressent également rapidement. En 2017, Google a proposé le révolutionnaire modèle Transformer, et OpenAI a alors développé GPT-1 basé sur Transformer. La course aux armements des grands modèles a éclaté, et la demande de puissance de calcul de l'IA a inauguré la deuxième accélération depuis l'émergence de Alex Net en 2012. .
Après avoir réalisé la nouvelle tendance, Nvidia a lancé l'architecture Hopper en 2022, introduisant pour la première fois le moteur d'accélération Transformer au niveau matériel, affirmant qu'il peut augmenter de 9 fois le temps de formation du grand modèle de langage basé sur Transformer. Basé sur l'architecture Hopper, Nvidia a lancé le "GPU le plus puissant en surface" - H100.
H100 est le "monstre de point" ultime de Nvidia ; d'une part, il introduit diverses technologies d'optimisation de l'IA, telles que la quantification, le calcul matriciel (Tensor Core 4.0) et le moteur d'accélération Transformer ; d'autre part, il regorge des atouts traditionnels de Nvidia, tels que 7296 CUDA Core, 80 Go de mémoire HBM2 et jusqu'à 900 Go/s de technologie de connexion NVLink 4.0.
Tenant le H100 en main, Nvidia a temporairement poussé un soupir de soulagement : il n'y a pas de puce produite en série sur le marché qui soit meilleure que la H100.
La bascule secrète de Google et Nvidia est également une réussite mutuelle : Nvidia a importé de nombreuses technologies innovantes de Google, et la recherche de pointe de Google sur l'intelligence artificielle a également pleinement bénéficié de l'innovation du GPU de Nvidia. est réduit à un niveau utilisable par un grand modèle de langage "sur la pointe des pieds". Ceux qui sont sous les feux de la rampe, comme OpenAI, se tiennent également sur les épaules de ces deux-là.
Mais les sentiments appartiennent aux sentiments, et les affaires appartiennent aux affaires. La bataille offensive et défensive autour du GPU a rendu l'industrie plus sûre d'une chose : **Le GPU n'est pas la solution optimale pour l'IA, et les ASIC customisés ont la possibilité de casser le monopole de Nvidia. **Les fissures ont été ouvertes, et Google ne sera pas le seul à suivre le goût.
** En particulier, la puissance de calcul est devenue la demande la plus certaine à l'ère AGI, et tout le monde veut s'asseoir à la même table avec NVIDIA pour manger. **
03, une fissure qui se dilate
En plus d'OpenAI, il y a deux entreprises prêtes à l'emploi dans ce cycle de boom de l'IA. L'une est la société de dessin d'IA Midjourney, dont la capacité à contrôler différents styles de peinture fait peur à d'innombrables artistes à base de carbone ; l'autre est Authropic, dont le fondateur est d'OpenAI.Le robot de dialogue Claude a joué dans les deux sens avec ChatGPT.
** Mais aucune de ces deux sociétés n'a acheté de GPU Nvidia pour créer des supercalculateurs, mais a utilisé les services informatiques de Google. **
Afin de répondre à l'explosion de la puissance de calcul de l'IA, Google a construit un supercalculateur (TPU v4 Pod) avec des TPU 4096. Les puces sont interconnectées avec des commutateurs de circuits optiques (OCS) auto-développés, qui peuvent non seulement être utilisés pour former leur propre LaMDA , Les grands modèles de langage tels que MUM et PaLM peuvent également fournir des services bon marché et de haute qualité aux startups d'IA.
Supercalculateur GoogleTPU v4 Pod
Il y a aussi Tesla qui bricole lui-même des supercalculateurs. Après avoir lancé la puce FSD montée sur véhicule, Tesla a présenté au monde extérieur le supercalculateur Dojo ExaPOD construit avec 3 000 de ses propres puces D1 en août 2021. Parmi eux, la puce D1 est fabriquée par TSMC, en utilisant la technologie 7 nm, et 3 000 puces D1 font directement de Dojo le cinquième plus grand ordinateur de puissance de calcul au monde.
** Cependant, la combinaison des deux ne peut être comparée à l'impact apporté par la puce Athena développée par Microsoft. **
Microsoft est l'un des plus gros clients de Nvidia.Son propre service cloud Azure a acheté au moins des dizaines de milliers de GPU haut de gamme A100 et H100.SwiftKey et d'autres produits qui utilisent l'IA.
Après un calcul minutieux, la "taxe Nvidia" que Microsoft doit payer est un chiffre astronomique, et les puces auto-développées sont presque inévitables. Tout comme Ali a calculé la demande future de Taobao Tmall pour le cloud computing, les bases de données et le stockage, et a constaté qu'il s'agissait d'un chiffre astronomique, il a donc décidé de soutenir Alibaba Cloud et a lancé une vigoureuse campagne "de-IOE" en interne.
** La réduction des coûts est un aspect, et l'intégration verticale pour créer une différenciation en est un autre. ** À l'ère des téléphones mobiles, le processeur (AP), la mémoire et l'écran des téléphones mobiles Samsung sont autoproduits et vendus, ce qui contribue grandement à l'hégémonie mondiale de Samsung sur Android. Google et Microsoft effectuent également une optimisation au niveau de la puce pour leurs propres services cloud afin de créer des différences.
Par conséquent, contrairement à Apple et Samsung, qui ne vendent pas de puces au monde extérieur, bien que les puces d'IA de Google et Microsoft ne soient pas vendues au monde extérieur, ils assimileront certains des clients potentiels de Nvidia via des "services cloud de puissance de calcul d'IA". et Authropic en sont des exemples.Il y a plus de petites entreprises (en particulier au niveau de la couche applicative de l'IA) qui choisissent les services cloud.
**La concentration du marché mondial du cloud computing est très élevée. Les cinq principaux fabricants (Amazon AWS, Microsoft Azure, Google Cloud, Alibaba Cloud et IBM) représentent plus de 60 % et fabriquent tous leurs propres puces d'IA. Parmi eux, Google fait les progrès les plus rapides, IBM a les plus fortes réserves, Microsoft a le plus grand impact, Amazon a le meilleur secret et Ali a le plus de difficultés. **
Les principaux fabricants nationaux développent leurs propres puces, et la fin d'Oppo Zheku jettera une ombre sur chaque joueur qui entre sur le terrain. Cependant, les grandes entreprises étrangères font des recherches autonomes, et des chaînes d'approvisionnement de talents et de technologies peuvent être construites avec des fonds. Par exemple, lorsque Tesla s'est engagé dans FSD, il a recruté le dieu de la Silicon Valley Jim Keller, et Google a développé le TPU et a directement invité Turing. Lauréat, inventeur de l'architecture RISC Professeur David Patterson.
Outre les grands fabricants, certaines petites et moyennes entreprises tentent également de remporter le gâteau de Nvidia, comme Graphcore, qui avait autrefois une valorisation de 2,8 milliards de dollars américains, et le Cambrien domestique appartient également à cette catégorie. Le tableau suivant répertorie les start-up de conception de puces IA les plus connues au monde.
La difficulté pour les start-up de puces d'IA est que sans l'investissement continu de grandes entreprises aux ressources financières solides, elles ne peuvent pas s'autoproduire et se vendre comme Google. A moins que la voie technique ne soit unique ou que les avantages ne soient particulièrement forts, il n'y a fondamentalement pas chance de gagner en se battant avec Nvidia, dont les avantages économiques et écologiques peuvent presque dissiper tous les doutes des clients.
** L'impact de la start-up sur Nvidia est limité, et les soucis cachés de Huang Renxun sont toujours ces gros clients malhonnêtes. **
Bien sûr, les grands constructeurs sont toujours indissociables de Nvidia. Par exemple, même si le TPU de Google a été mis à jour vers la 4e génération, il doit toujours acheter des GPU en grande quantité pour fournir une puissance de calcul en conjonction avec le TPU ; Choisissez d'acheter 10 000 GPU auprès de NVIDIA.
Pourtant, Huang Renxun a déjà connu l'amitié plastique des grands fabricants de Musk. En 2018, Musk a annoncé publiquement qu'il développerait sa propre puce de voiture (le DRIVE PX de Nvidia était utilisé à l'époque). Huang Renxun a été interrogé par des analystes sur place lors d'une conférence téléphonique, et il n'a pas pu quitter la scène pendant un certain temps. alors que. Ensuite, Musk a publié une "clarification", mais un an plus tard, Tesla a toujours quitté Nvidia sans regarder en arrière [5] 。
Les grandes usines n'ont jamais fait preuve de pitié pour réduire les coûts. Bien que les puces d'Intel soient vendues à l'extrémité B à l'ère des PC, les consommateurs ont un large choix d'autonomie et les fabricants doivent faire de la publicité "Intel Inside" ; mais à l'ère du cloud de puissance de calcul, les géants peuvent bloquer toutes les informations matérielles sous-jacentes, et Avec une puissance de calcul de 100 TFlops, les consommateurs peuvent-ils dire quelle partie provient du TPU et quelle partie provient du GPU ?
Par conséquent, Nvidia doit enfin faire face à la question : **Le GPU n'est en effet pas né pour l'IA, mais le GPU sera-t-il la solution optimale pour l'IA ? **
Au cours des 17 dernières années, Huang Renxun a séparé le GPU d'une seule scène de jeu et de traitement d'image, en en faisant un outil de puissance informatique à usage général. De nouveaux scénarios continuent de "modifier magiquement" le GPU, essayant de trouver un équilibre entre "généralité " et "spécificité".
Au cours des deux dernières décennies, Nvidia a introduit d'innombrables nouvelles technologies qui ont changé l'industrie : plate-forme CUDA, TensorCore, RT Core (ray tracing), NVLink, plate-forme cuLitho (calcul de lithographie), précision mixte, Omniverse, Transformer engine... Ces Les technologies ont aidé Nvidia à passer d'une société de puces de deuxième niveau à un poignet Nanbo dans la valeur marchande de l'ensemble de l'industrie, ce qui n'est pas inspirant.
Mais une génération devrait avoir une architecture informatique d'une époque. Le développement de l'intelligence artificielle progresse rapidement et les percées technologiques se mesurent en heures. Si vous voulez que l'IA pénètre la vie humaine autant qu'elle l'a fait lorsque les PC/smartphones sont devenus populaires, alors puissance de calcul Les coûts devront peut-être baisser de 99 %, et les GPU ne seront peut-être pas la seule réponse.
** L'histoire nous dit que peu importe la prospérité d'un empire, il peut être nécessaire de faire attention à cette fissure discrète. **
Les références
[1] Classification ImageNet avec réseaux de neurones à convolution profonde, Hinton
[2] Microsoft prépare une puce AI alors que les coûts de l'apprentissage automatique augmentent, l'information
[3] Réseaux de neurones convolutifs hautes performances pour le traitement de documents
[4] Le Cloud TPU v4 de Google fournit un ML à l'échelle exaFLOPS avec une efficacité de pointe
[5] Les ambitions de Tesla en matière d'IA, Tokawa Research Institute
[6] Apprentissage profond non supervisé à grande échelle à l'aide de processeurs graphiques
Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
Une fissure dans l'empire Nvidia
Source : Institut basé sur le silicium
Auteur : He Luheng/Boss Dai
En 2012, deux événements majeurs ont eu lieu dans le cercle de l'IA. Dans l'ordre chronologique, le premier a été la sortie de Google Brain, une équipe Google de longue date, comme son "premier travail" - un réseau d'apprentissage en profondeur "Google Cat". " qui peut reconnaître les chats, avec 74,8 % de reconnaissance Le taux de précision est supérieur de 0,8 % aux 74 % de l'algorithme gagnant du célèbre concours de reconnaissance d'images ImageNet l'année précédente.
Mais les moments très médiatisés de Google n'ont duré que quelques mois. En décembre 2012, le gagnant du dernier ImageNet est sorti.Le maître de l'apprentissage en profondeur Hinton et ses disciples ont apporté le réseau neuronal convolutif AlexNet, qui a porté le taux de précision de la reconnaissance à 84 %, amorçant ainsi la révolution de l'IA du prochain. décennie Google Cat a été enterré dans la poussière de l'histoire.
Ce n'est pas seulement le modèle ImageNet lui-même qui a choqué l'industrie. Ce réseau de neurones, qui nécessite 14 millions d'images et un total de 262 pétaflops d'opérations en virgule flottante, n'a utilisé que quatre NVIDIA Geforce GTX 580 pendant une semaine de formation. Pour référence, Google Cat a utilisé 10 millions d'images, 16 000 processeurs et 1 000 ordinateurs [1] 。
On dit que Google a également participé secrètement au concours cette année, et le choc qu'il a reçu s'est directement reflété dans l'action suivante : Google a dépensé 44 millions de dollars pour acquérir l'équipe Hinton, et a immédiatement passé une commande à Nvidia pour un grand nombre de GPU. pour l'intelligence artificielle.Formation, et en même temps "biens de balayage" sont aussi des géants tels que Microsoft et Facebook.
** Nvidia est devenu le plus grand gagnant et le cours de son action a été multiplié par 121 au maximum au cours des 10 années suivantes. Un empire est né. **
Mais sur l'empire, deux nuages sombres se sont peu à peu rassemblés. Google, qui achetait des produits à Nvidia à l'époque, a fait des débuts époustouflants avec AlphaGo trois ans plus tard et a battu le champion humain Ke Jie en 2017. Les passionnés ont découvert que la puce pilotant AlphaGo n'est plus le GPU de Nvidia, mais la puce TPU développée par Google.
Trois ans plus tard, un scénario similaire se répète. Tesla, autrefois considéré comme un client de référence par Huang Renxun, a également fait ses adieux au GPU Nvidia.Il a d'abord lancé la puce de véhicule FSD avec NPU comme cœur, puis a sorti la puce D1 utilisée pour construire des clusters de formation IA.Li a perdu deux de ses les clients les plus importants de l'ère de l'IA.
D'ici 2022, le cycle informatique mondial entrera dans une phase descendante. Les principales sociétés de cloud computing réduiront les budgets d'achat de GPU pour les centres de données, et la marée de l'extraction de blockchain se refroidira progressivement. De plus, l'interdiction américaine des puces sur la Chine rendra impossible pour vendre A100/H100 à la Chine. Pour les cartes graphiques haut de gamme, les stocks de Nvidia ont bondi et le cours de son action a chuté de 2/3 par rapport à son sommet.
Fin 2022, ChatGPT est né, et les GPU, comme carburant de "l'alchimie" à grande échelle, ont de nouveau été pillés.Nvidia a obtenu un répit, mais le troisième nuage noir a suivi : le 18 avril 2023, le célèbre média technologique The Information a annoncé la nouvelle :* Microsoft, l'initiateur de cette vague d'IA, développe secrètement sa propre puce d'IA* [2] 。
Cette puce appelée Athena est fabriquée par TSMC et utilise un procédé avancé de 5 nm. Le nombre d'équipes de R&D de Microsoft est proche de 300. Évidemment, l'objectif de cette puce est de remplacer le coûteux A100/H100, de fournir un moteur de puissance de calcul pour OpenAI, et finira par arracher le gâteau de Nvidia via le service cloud Azure de Microsoft.
Microsoft est actuellement le plus gros acheteur du H100 de Nvidia, et il a même été dit qu'il « bouclerait » la capacité de production du H100 sur toute l'année. Le signal de rupture de Microsoft est sans aucun doute un coup de tonnerre, il faut savoir que même au plus sombre d'Intel, aucun de ses clients "n'ose" fabriquer ses propres puces CPU (à l'exception d'Apple qui ne les vend pas à l'extérieur) .
Alors que Nvidia monopolise actuellement 90% du marché de la puissance de calcul de l'IA avec GPU+NVlink+CUDA, le premier crack est apparu dans l'empire **. **
01, le GPU qui n'est pas né pour l'IA
Dès le début, les GPU n'étaient pas faits pour l'IA.
En octobre 1999, Nvidia sort la GeForce 256, une puce de traitement graphique basée sur le procédé 220nm de TSMC et intégrant 23 millions de transistors. Nvidia a extrait les initiales "GPU" du Graphics Processing Unit, et surnommé GeForce 256 "le premier GPU au monde", qui a habilement défini la nouvelle catégorie de GPU et occupé l'esprit des utilisateurs de ce mot jusqu'à aujourd'hui.
À l'heure actuelle, l'intelligence artificielle est restée silencieuse pendant de nombreuses années, en particulier dans le domaine des réseaux de neurones profonds. Les futurs lauréats du prix Turing tels que Geoffery Hinton et Yann LeCun sont toujours assis sur le banc académique, et ils ne pensent jamais à leur carrière. , sera complètement changé par un GPU développé à l'origine pour les joueurs.
Pour qui le GPU est-il né ? image. Plus précisément, il est né pour libérer le CPU de la corvée de l'affichage graphique. Le principe de base de l'affichage d'image est de diviser l'image de chaque image en pixels individuels, puis d'effectuer plusieurs processus de rendu tels que le traitement des sommets, le traitement primitif, la rastérisation, le traitement des fragments, l'opération sur les pixels, etc., et enfin l'affichage à l'écran.
Pourquoi dites-vous que c'est un travail difficile ? Faites un problème arithmétique simple :
En supposant qu'il y a 300 000 pixels à l'écran, calculés à une fréquence d'images de 60 ips, 18 millions de rendus par seconde doivent être effectués, en incluant à chaque fois les cinq étapes ci-dessus, correspondant à cinq instructions, c'est-à-dire que le CPU doit effectuer 90 millions d'instructions par seconde pour réaliser une présentation d'écran d'une seconde.À titre de référence, le processeur le plus performant d'Intel à l'époque n'avait que 60 millions de calculs par seconde.
Ce n'est pas parce que le processeur est faible, mais parce qu'il est bon pour l'ordonnancement des threads, donc plus d'espace est donné à l'unité de contrôle et à l'unité de stockage, et l'unité de calcul utilisée pour le calcul n'occupe que 20 % de l'espace. Au contraire, le GPU occupe plus de 80% de l'espace est l'unité de calcul, ce qui apporte des capacités de calcul super parallèles, et est plus adapté au travail à pas fixe, répétitif et ennuyeux de l'affichage d'images.
Ce n'est que quelques années plus tard que certains spécialistes de l'intelligence artificielle se sont rendus compte que les GPU dotés de telles caractéristiques convenaient également à l'apprentissage en profondeur. De nombreuses architectures classiques de réseaux de neurones profonds ont été proposées dès la seconde moitié du XXe siècle, mais faute de matériel informatique pour les former, de nombreuses études ne peuvent être que "sur papier", et le développement stagne depuis longtemps. temps.
Un coup de feu en octobre 1999 a amené les GPU à l'intelligence artificielle. Le processus d'apprentissage de l'apprentissage en profondeur consiste à effectuer des opérations hiérarchiques sur chaque valeur d'entrée en fonction des fonctions et des paramètres de chaque couche du réseau de neurones, et enfin d'obtenir une valeur de sortie, ce qui nécessite un grand nombre d'opérations matricielles tout comme le rendu graphique. se trouve être ce que le GPU est le mieux à faire.
Cependant, l'image montre que bien que la quantité de traitement de données soit énorme, la plupart des étapes sont fixes.Une fois le réseau de neurones profond appliqué au domaine de la prise de décision, il impliquera des situations complexes telles que les structures de branche et les paramètres de chaque couche doit être formée sur la base de données massives, positives et négatives. Ces différences ont posé des dangers cachés pour l'adaptabilité des GPU à l'IA à l'avenir.
Aujourd'hui, le directeur général d'Amazon AI/ML, Kumar Chellapilla, est le premier chercheur à manger des crabes GPU. En 2006, il a utilisé la carte graphique GeForce 7800 de Nvidia pour implémenter le réseau neuronal convolutif (CNN) pour la première fois et a constaté qu'il était 4 fois plus rapide que d'utiliser un processeur. Il s'agit de la première tentative connue d'utilisation de GPU pour l'apprentissage en profondeur [3] 。
Le travail de Kumar n'a pas beaucoup attiré l'attention, principalement en raison de la grande complexité de la programmation basée sur le GPU. Mais juste à ce moment-là, Nvidia a lancé la plate-forme CUDA en 2007, ce qui a considérablement réduit la difficulté pour les développeurs d'utiliser le GPU pour former des réseaux de neurones profonds, ce qui a donné plus d'espoir aux croyants en apprentissage en profondeur.
Puis en 2009, Wu Enda de Stanford et d'autres ont publié un article révolutionnaire [6] , le GPU réduit le temps de formation de l'IA de quelques semaines à quelques heures grâce à plus de 70 fois la puissance de calcul du CPU. Cet article montre la voie pour l'implémentation matérielle de l'intelligence artificielle. Le GPU a considérablement accéléré le processus de l'IA du papier à la réalité.
Il convient de mentionner que Wu Enda a rejoint Google Brain en 2011 et est l'un des leaders du projet Google Cat mentionné au début. La raison pour laquelle Google Brain n'a finalement pas réussi à utiliser le GPU est inconnue des étrangers, mais avant et après que Wu Enda ait quitté Google pour rejoindre Baidu, il y a eu des rumeurs selon lesquelles c'était parce que l'attitude de Google envers le GPU n'était pas claire.
**Après l'exploration d'innombrables personnes, le relais a finalement été remis au maître de l'apprentissage en profondeur Hinton, et le temps a déjà pointé vers 2012. **
En 2012, Hinton et deux étudiants, Alex Krizhevsky et Ilya Sutskeverz, ont conçu un réseau de neurones à convolution profonde, AlexNet, et ont prévu de participer au concours ImageNet cette année. Mais le problème est que cela peut prendre plusieurs mois pour former AlexNet avec un CPU, alors ils se sont tournés vers le GPU.
Ce GPU, crucial dans l'histoire du développement du deep learning, est la fameuse "carte graphique bombe nucléaire" GTX 580. En tant que produit phare de la dernière architecture Fermi de Nvidia, la GTX 580 est truffée de 512 cœurs CUDA (108 dans la génération précédente).Alors que la puissance de calcul bondit, les problèmes de consommation électrique exagérée et de génération de chaleur ont également fait de Nvidia le nom de "Nuclear Bomb Factory". ".
L'arsenic de A, le miel de B. Comparé à la "lisibilité" lors de la formation de réseaux de neurones avec des GPU, le problème de dissipation thermique n'est pas à mentionner. L'équipe Hinton a terminé avec succès la programmation avec la plate-forme CUDA de Nvidia.Avec le support de deux cartes graphiques GTX 580, la formation de 14 millions d'images n'a pris qu'une semaine et AlexNet a remporté le championnat avec succès.
** En raison de l'influence du concours ImageNet et de Hinton lui-même, tous les spécialistes de l'intelligence artificielle ont réalisé en un instant l'importance du GPU. **
Deux ans plus tard, Google a pris le modèle GoogLeNet pour participer à ImageNet et a remporté le championnat avec un taux de précision de 93 %, en utilisant des GPU NVIDIA. Cette année, le nombre de GPU utilisés par toutes les équipes participantes a grimpé à 110. En dehors des compétitions, le GPU est devenu une "consommation incontournable" pour l'apprentissage en profondeur, envoyant à Huang Renxun un flux constant de commandes.
Cela a permis à Nvidia de se débarrasser de l'ombre du fiasco sur le marché mobile.Après la sortie de l'iPhone en 2007, le gâteau des puces pour smartphones s'est rapidement élargi.Nvidia a également tenté d'obtenir une part du gâteau de Samsung, Qualcomm et MediaTek. Le problème de dissipation thermique a échoué. Au final, c'est le domaine de l'intelligence artificielle sauvé par le GPU qui a donné à Nvidia une deuxième courbe de croissance.
Mais après tout, le GPU n'est pas né pour former des réseaux de neurones : plus l'intelligence artificielle se développera rapidement, plus ces problèmes seront exposés.
Par exemple, bien que le GPU soit très différent du CPU, les deux suivent essentiellement la structure de von Neumann, et le stockage et le fonctionnement sont séparés. Le goulot d'étranglement d'efficacité provoqué par cette séparation, après tout, les étapes de traitement d'image sont relativement fixes et peuvent être résolues par des opérations plus parallèles, mais il est très fatal dans un réseau de neurones avec de nombreuses structures de branches.
Chaque fois qu'un réseau de neurones ajoute une couche ou une branche, il doit augmenter un accès mémoire pour stocker des données pour le retour en arrière, et le temps passé à cela est inévitable. Surtout à l'ère des grands modèles, plus le modèle est grand, plus il faut effectuer d'opérations d'accès à la mémoire - l'énergie consommée dans l'accès à la mémoire est plusieurs fois supérieure à celle de l'informatique.
Une analogie simple est que le GPU est un homme musclé (avec de nombreuses unités de calcul), mais pour chaque instruction reçue, il doit revenir en arrière et regarder le manuel d'instructions (mémoire).Enfin, à mesure que la taille et la complexité du modèle augmentent , l'homme Le temps pour le vrai travail est très limité, et au lieu de cela, je suis tellement fatigué de feuilleter des manuels que j'ai la mousse à la bouche.
Les problèmes de mémoire ne sont que l'un des nombreux "inconforts" des GPU dans les applications de réseau neuronal profond. Nvidia était conscient de ces problèmes dès le début et a rapidement commencé à "modifier magiquement" le GPU pour le rendre plus adapté aux scénarios d'application d'intelligence artificielle ; et les joueurs d'IA qui sont parfaitement conscients de l'incendie se faufilent également, essayant d'utiliser les défauts du GPU pour ouvrir le coin de l'empire de Huang Renxun.
** Une bataille offensive et défensive commence. **
02, la sombre bataille entre Google et Nvidia
Face à la demande écrasante de puissance de calcul de l'IA et aux défauts congénitaux du GPU, Huang Renxun a proposé deux ensembles de solutions pour aller de pair.
**Le premier ensemble est de continuer à accumuler violemment la puissance de calcul sur le chemin de "la vieille fée de la puissance de calcul a un pouvoir magique illimité". ** À une époque où la demande de puissance de calcul de l'IA double tous les 3,5 mois, la puissance de calcul est la carotte qui pend devant les yeux des sociétés d'intelligence artificielle, ce qui les fait gronder Huang Renxun pour ses superbes compétences en matière d'épée tout en l'arrachant comme un chien Toute la capacité de Nvidia.
** Le deuxième ensemble consiste à résoudre progressivement l'inadéquation entre les scénarios GPU et intelligence artificielle grâce à une "innovation améliorée". **Ces problèmes incluent, mais sans s'y limiter, la consommation d'énergie, les murs de mémoire, les goulots d'étranglement de la bande passante, les calculs à faible précision, les connexions à haut débit, les optimisations de modèles spécifiques... Depuis 2012, Nvidia a soudainement accéléré la vitesse des mises à jour de l'architecture.
Après que Nvidia a publié CUDA, il a utilisé une architecture unifiée pour prendre en charge les deux principaux scénarios de graphisme et d'informatique. L'architecture de première génération a fait ses débuts en 2007 et s'appelait Tesla, non pas parce que Huang Renxun voulait montrer sa faveur à Musk, mais pour rendre hommage au physicien Nikola Tesla (la première génération était l'architecture Curie).
Depuis lors, chaque génération d'architecture GPU NVIDIA a été nommée d'après des scientifiques célèbres, comme le montre la figure ci-dessous. A chaque itération de l'architecture, Nvidia continue d'accumuler de la puissance de calcul, tout en s'améliorant sans "se couper les muscles et les os".
Afin de s'adapter à la scène de l'IA, le GPU "magiquement modifié" de Nvidia ressemble de plus en plus à un CPU dans une certaine mesure - tout comme l'excellente capacité de planification du CPU se fait au détriment de la puissance de calcul, Nvidia doit se restreindre sur l'empilement des cœurs de calcul. Cependant, peu importe comment vous changez le GPU avec le fardeau de la polyvalence, il sera difficile de faire correspondre la puce dédiée dans le scénario AI.
** Le premier à attaquer Nvidia a été Google, qui a été le premier à acheter des GPU à grande échelle pour l'IA computing. **
Après avoir montré ses muscles avec GoogLeNet en 2014, Google n'a plus participé publiquement au concours de reconnaissance des machines et a conspiré pour développer des puces spécifiques à l'IA. En 2016, Google a pris les devants avec AlphaGo.Après avoir remporté Li Shishi, il a immédiatement lancé sa puce AI TPU auto-développée, qui a surpris Nvidia avec une nouvelle architecture « née pour l'IA ».
TPU est l'acronyme de Tensor Processing Unit, et le nom chinois est "Tensor Processing Unit". Si la "réforme magique" du GPU de Nvidia consiste à abattre le mur est pour compenser le mur ouest, alors le TPU doit fondamentalement réduire la demande de stockage et de connexion, et transférer au maximum l'espace de la puce vers le calcul. Plus précisément, les deux Grands signifient :
**Le premier est la technologie quantitative. ** Les calculs informatiques modernes utilisent généralement des données de haute précision, qui occupent beaucoup de mémoire, mais en fait, la plupart des calculs de réseaux de neurones ne nécessitent pas de précision pour atteindre des calculs à virgule flottante de 32 bits ou 16 bits. La technologie consiste essentiellement à combiner 32 bits/16 bits. Les nombres sont approximés en entiers 8 bits, en maintenant une précision appropriée et en réduisant les besoins de stockage.
** Le second est le tableau systolique, ** qui est le tableau de multiplication matricielle, qui est l'une des différences les plus critiques entre le TPU et le GPU. Pour faire simple, les opérations de réseau de neurones nécessitent un grand nombre d'opérations matricielles. Le GPU ne peut désassembler les calculs matriciels en plusieurs calculs vectoriels qu'étape par étape. Chaque fois qu'un groupe est terminé, il doit accéder à la mémoire et enregistrer les résultats de cette couche jusqu'à ce que tous les calculs vectoriels soient terminés. , puis combinez les résultats de chaque couche pour obtenir la valeur de sortie.
Dans le TPU, des milliers d'unités de calcul sont directement connectées pour former un tableau de multiplication matricielle. En tant que cœur de calcul, les calculs matriciels peuvent être effectués directement. À l'exception du chargement des données et des fonctions au début, il n'est pas nécessaire d'accéder aux unités de stockage, ce qui réduit considérablement l'accès.La fréquence accélère considérablement la vitesse de calcul du TPU, et la consommation d'énergie et l'occupation de l'espace physique sont également considérablement réduites.
Le TPU de Google est très rapide et il n'a fallu que ** 15 mois ** entre la conception, la vérification, la production en série et le déploiement final dans son propre centre de données. Après les tests, les performances et la consommation d'énergie du TPU dans CNN, LSTM, MLP et d'autres scénarios d'IA ont largement dépassé le GPU de Nvidia au cours de la même période. **Toute la pression a été donnée à Nvidia d'un coup. **
Être poignardé par un gros client est inconfortable, mais Nvidia ne résistera pas et ne sera pas battu, et un bras de fer a commencé.
Cinq mois après que Google a lancé le TPU, Nvidia a également introduit l'architecture Pascal du processus 16 nm. D'une part, la nouvelle architecture introduit la célèbre technologie d'interconnexion bidirectionnelle à haut débit NVLink, qui améliore considérablement la bande passante de connexion ; d'autre part, elle imite la technologie de quantification du TPU et améliore l'efficacité de calcul du réseau de neurones en réduisant la précision des données.
En 2017, Nvidia a lancé Volta, la première architecture conçue spécifiquement pour l'apprentissage en profondeur, qui a introduit pour la première fois TensorCore, qui est spécialement utilisé pour les opérations matricielles, bien que le tableau de multiplication 4 × 4 soit le même que le tableau d'impulsions TPU 256 × 256. Le ratio est un peu minable, mais c'est aussi un compromis fait sur la base du maintien de la souplesse et de la polyvalence.
Les dirigeants de NVIDIA ont déclaré aux clients : ** "Volta n'est pas une mise à niveau de Pascal, mais une toute nouvelle architecture." **
Google fait également la course contre la montre : après 2016, le TPU a été mis à jour sur 3 générations en cinq ans : il a lancé TPUv2 en 2017, TPUv3 en 2018 et TPUv4 en 2021, et a mis les données sur le visage de Nvidia. [4] : **TPU v4 est 1,2 à 1,7 fois plus rapide que l'A100 de Nvidia, tout en réduisant la consommation d'énergie de 1,3 à 1,9 fois. **
Google ne vend pas de puces TPU au monde extérieur, et continue en même temps d'acheter les GPU de Nvidia en grande quantité, ce qui fait que la concurrence des puces AI entre les deux reste dans la "guerre froide" plutôt que dans la "concurrence ouverte". Mais après tout, Google déploie le TPU dans son propre système de services cloud pour fournir des services de puissance de calcul d'IA au monde extérieur, ce qui réduit sans aucun doute le marché potentiel de Nvidia.
Alors que les deux "se battent dans le noir", les progrès dans le domaine de l'intelligence artificielle progressent également rapidement. En 2017, Google a proposé le révolutionnaire modèle Transformer, et OpenAI a alors développé GPT-1 basé sur Transformer. La course aux armements des grands modèles a éclaté, et la demande de puissance de calcul de l'IA a inauguré la deuxième accélération depuis l'émergence de Alex Net en 2012. .
Après avoir réalisé la nouvelle tendance, Nvidia a lancé l'architecture Hopper en 2022, introduisant pour la première fois le moteur d'accélération Transformer au niveau matériel, affirmant qu'il peut augmenter de 9 fois le temps de formation du grand modèle de langage basé sur Transformer. Basé sur l'architecture Hopper, Nvidia a lancé le "GPU le plus puissant en surface" - H100.
H100 est le "monstre de point" ultime de Nvidia ; d'une part, il introduit diverses technologies d'optimisation de l'IA, telles que la quantification, le calcul matriciel (Tensor Core 4.0) et le moteur d'accélération Transformer ; d'autre part, il regorge des atouts traditionnels de Nvidia, tels que 7296 CUDA Core, 80 Go de mémoire HBM2 et jusqu'à 900 Go/s de technologie de connexion NVLink 4.0.
Tenant le H100 en main, Nvidia a temporairement poussé un soupir de soulagement : il n'y a pas de puce produite en série sur le marché qui soit meilleure que la H100.
La bascule secrète de Google et Nvidia est également une réussite mutuelle : Nvidia a importé de nombreuses technologies innovantes de Google, et la recherche de pointe de Google sur l'intelligence artificielle a également pleinement bénéficié de l'innovation du GPU de Nvidia. est réduit à un niveau utilisable par un grand modèle de langage "sur la pointe des pieds". Ceux qui sont sous les feux de la rampe, comme OpenAI, se tiennent également sur les épaules de ces deux-là.
Mais les sentiments appartiennent aux sentiments, et les affaires appartiennent aux affaires. La bataille offensive et défensive autour du GPU a rendu l'industrie plus sûre d'une chose : **Le GPU n'est pas la solution optimale pour l'IA, et les ASIC customisés ont la possibilité de casser le monopole de Nvidia. **Les fissures ont été ouvertes, et Google ne sera pas le seul à suivre le goût.
** En particulier, la puissance de calcul est devenue la demande la plus certaine à l'ère AGI, et tout le monde veut s'asseoir à la même table avec NVIDIA pour manger. **
03, une fissure qui se dilate
En plus d'OpenAI, il y a deux entreprises prêtes à l'emploi dans ce cycle de boom de l'IA. L'une est la société de dessin d'IA Midjourney, dont la capacité à contrôler différents styles de peinture fait peur à d'innombrables artistes à base de carbone ; l'autre est Authropic, dont le fondateur est d'OpenAI.Le robot de dialogue Claude a joué dans les deux sens avec ChatGPT.
** Mais aucune de ces deux sociétés n'a acheté de GPU Nvidia pour créer des supercalculateurs, mais a utilisé les services informatiques de Google. **
Afin de répondre à l'explosion de la puissance de calcul de l'IA, Google a construit un supercalculateur (TPU v4 Pod) avec des TPU 4096. Les puces sont interconnectées avec des commutateurs de circuits optiques (OCS) auto-développés, qui peuvent non seulement être utilisés pour former leur propre LaMDA , Les grands modèles de langage tels que MUM et PaLM peuvent également fournir des services bon marché et de haute qualité aux startups d'IA.
Il y a aussi Tesla qui bricole lui-même des supercalculateurs. Après avoir lancé la puce FSD montée sur véhicule, Tesla a présenté au monde extérieur le supercalculateur Dojo ExaPOD construit avec 3 000 de ses propres puces D1 en août 2021. Parmi eux, la puce D1 est fabriquée par TSMC, en utilisant la technologie 7 nm, et 3 000 puces D1 font directement de Dojo le cinquième plus grand ordinateur de puissance de calcul au monde.
** Cependant, la combinaison des deux ne peut être comparée à l'impact apporté par la puce Athena développée par Microsoft. **
Microsoft est l'un des plus gros clients de Nvidia.Son propre service cloud Azure a acheté au moins des dizaines de milliers de GPU haut de gamme A100 et H100.SwiftKey et d'autres produits qui utilisent l'IA.
Après un calcul minutieux, la "taxe Nvidia" que Microsoft doit payer est un chiffre astronomique, et les puces auto-développées sont presque inévitables. Tout comme Ali a calculé la demande future de Taobao Tmall pour le cloud computing, les bases de données et le stockage, et a constaté qu'il s'agissait d'un chiffre astronomique, il a donc décidé de soutenir Alibaba Cloud et a lancé une vigoureuse campagne "de-IOE" en interne.
** La réduction des coûts est un aspect, et l'intégration verticale pour créer une différenciation en est un autre. ** À l'ère des téléphones mobiles, le processeur (AP), la mémoire et l'écran des téléphones mobiles Samsung sont autoproduits et vendus, ce qui contribue grandement à l'hégémonie mondiale de Samsung sur Android. Google et Microsoft effectuent également une optimisation au niveau de la puce pour leurs propres services cloud afin de créer des différences.
Par conséquent, contrairement à Apple et Samsung, qui ne vendent pas de puces au monde extérieur, bien que les puces d'IA de Google et Microsoft ne soient pas vendues au monde extérieur, ils assimileront certains des clients potentiels de Nvidia via des "services cloud de puissance de calcul d'IA". et Authropic en sont des exemples.Il y a plus de petites entreprises (en particulier au niveau de la couche applicative de l'IA) qui choisissent les services cloud.
**La concentration du marché mondial du cloud computing est très élevée. Les cinq principaux fabricants (Amazon AWS, Microsoft Azure, Google Cloud, Alibaba Cloud et IBM) représentent plus de 60 % et fabriquent tous leurs propres puces d'IA. Parmi eux, Google fait les progrès les plus rapides, IBM a les plus fortes réserves, Microsoft a le plus grand impact, Amazon a le meilleur secret et Ali a le plus de difficultés. **
Les principaux fabricants nationaux développent leurs propres puces, et la fin d'Oppo Zheku jettera une ombre sur chaque joueur qui entre sur le terrain. Cependant, les grandes entreprises étrangères font des recherches autonomes, et des chaînes d'approvisionnement de talents et de technologies peuvent être construites avec des fonds. Par exemple, lorsque Tesla s'est engagé dans FSD, il a recruté le dieu de la Silicon Valley Jim Keller, et Google a développé le TPU et a directement invité Turing. Lauréat, inventeur de l'architecture RISC Professeur David Patterson.
La difficulté pour les start-up de puces d'IA est que sans l'investissement continu de grandes entreprises aux ressources financières solides, elles ne peuvent pas s'autoproduire et se vendre comme Google. A moins que la voie technique ne soit unique ou que les avantages ne soient particulièrement forts, il n'y a fondamentalement pas chance de gagner en se battant avec Nvidia, dont les avantages économiques et écologiques peuvent presque dissiper tous les doutes des clients.
** L'impact de la start-up sur Nvidia est limité, et les soucis cachés de Huang Renxun sont toujours ces gros clients malhonnêtes. **
Bien sûr, les grands constructeurs sont toujours indissociables de Nvidia. Par exemple, même si le TPU de Google a été mis à jour vers la 4e génération, il doit toujours acheter des GPU en grande quantité pour fournir une puissance de calcul en conjonction avec le TPU ; Choisissez d'acheter 10 000 GPU auprès de NVIDIA.
Pourtant, Huang Renxun a déjà connu l'amitié plastique des grands fabricants de Musk. En 2018, Musk a annoncé publiquement qu'il développerait sa propre puce de voiture (le DRIVE PX de Nvidia était utilisé à l'époque). Huang Renxun a été interrogé par des analystes sur place lors d'une conférence téléphonique, et il n'a pas pu quitter la scène pendant un certain temps. alors que. Ensuite, Musk a publié une "clarification", mais un an plus tard, Tesla a toujours quitté Nvidia sans regarder en arrière [5] 。
Les grandes usines n'ont jamais fait preuve de pitié pour réduire les coûts. Bien que les puces d'Intel soient vendues à l'extrémité B à l'ère des PC, les consommateurs ont un large choix d'autonomie et les fabricants doivent faire de la publicité "Intel Inside" ; mais à l'ère du cloud de puissance de calcul, les géants peuvent bloquer toutes les informations matérielles sous-jacentes, et Avec une puissance de calcul de 100 TFlops, les consommateurs peuvent-ils dire quelle partie provient du TPU et quelle partie provient du GPU ?
Par conséquent, Nvidia doit enfin faire face à la question : **Le GPU n'est en effet pas né pour l'IA, mais le GPU sera-t-il la solution optimale pour l'IA ? **
Au cours des 17 dernières années, Huang Renxun a séparé le GPU d'une seule scène de jeu et de traitement d'image, en en faisant un outil de puissance informatique à usage général. De nouveaux scénarios continuent de "modifier magiquement" le GPU, essayant de trouver un équilibre entre "généralité " et "spécificité".
Au cours des deux dernières décennies, Nvidia a introduit d'innombrables nouvelles technologies qui ont changé l'industrie : plate-forme CUDA, TensorCore, RT Core (ray tracing), NVLink, plate-forme cuLitho (calcul de lithographie), précision mixte, Omniverse, Transformer engine... Ces Les technologies ont aidé Nvidia à passer d'une société de puces de deuxième niveau à un poignet Nanbo dans la valeur marchande de l'ensemble de l'industrie, ce qui n'est pas inspirant.
Mais une génération devrait avoir une architecture informatique d'une époque. Le développement de l'intelligence artificielle progresse rapidement et les percées technologiques se mesurent en heures. Si vous voulez que l'IA pénètre la vie humaine autant qu'elle l'a fait lorsque les PC/smartphones sont devenus populaires, alors puissance de calcul Les coûts devront peut-être baisser de 99 %, et les GPU ne seront peut-être pas la seule réponse.
** L'histoire nous dit que peu importe la prospérité d'un empire, il peut être nécessaire de faire attention à cette fissure discrète. **
Les références
[1] Classification ImageNet avec réseaux de neurones à convolution profonde, Hinton
[2] Microsoft prépare une puce AI alors que les coûts de l'apprentissage automatique augmentent, l'information
[3] Réseaux de neurones convolutifs hautes performances pour le traitement de documents
[4] Le Cloud TPU v4 de Google fournit un ML à l'échelle exaFLOPS avec une efficacité de pointe
[5] Les ambitions de Tesla en matière d'IA, Tokawa Research Institute
[6] Apprentissage profond non supervisé à grande échelle à l'aide de processeurs graphiques