En 2012, ocurrieron dos eventos importantes en el círculo de IA. En orden cronológico, el primero fue el lanzamiento de Google Brain, un equipo de Google de larga data, como su "trabajo de debut": una red de aprendizaje profundo "Google Cat " que puede reconocer gatos, con un 74,8 % de reconocimiento. La tasa de precisión es un 0,8 % superior al 74 % del algoritmo ganador del conocido concurso de reconocimiento de imágenes ImageNet el año anterior.
Pero los momentos de alto perfil de Google duraron solo unos meses. En diciembre de 2012 se dio a conocer el ganador del último ImageNet, el maestro de aprendizaje profundo Hinton y sus discípulos trajeron la red neuronal convolucional AlexNet, que elevó la tasa de precisión de reconocimiento al 84%, iniciando así la revolución de la IA del próximo década Google Cat fue enterrado en el polvo de la historia.
Hinton con dos estudiantes, 2012
No fue solo el modelo de ImageNet en sí lo que conmocionó a la industria. Esta red neuronal, que requiere 14 millones de imágenes y un total de 262 petaflops de operaciones de punto flotante, utilizó solo cuatro NVIDIA Geforce GTX 580 durante una semana de entrenamiento. Como referencia, Google Cat usó 10 millones de imágenes, 16 000 CPU y 1000 computadoras [1] 。
Se rumorea que Google también participó en secreto en la competencia de este año, y el impacto que recibió se reflejó directamente en la siguiente acción: Google gastó $ 44 millones para adquirir el equipo de Hinton e inmediatamente realizó un pedido a Nvidia por una gran cantidad de GPU. para inteligencia artificial La capacitación y, al mismo tiempo, los "bienes de barrido" también son gigantes como Microsoft y Facebook.
** Nvidia se convirtió en el mayor ganador y el precio de sus acciones aumentó un máximo de 121 veces en los siguientes 10 años. Nace un imperio. **
Pero sobre el imperio, dos nubes oscuras se acumularon gradualmente. Google, que compró productos de Nvidia en ese entonces, hizo un impresionante debut con AlphaGo tres años después y derrotó al campeón humano Ke Jie en 2017. La gente entusiasta descubrió que el chip que maneja AlphaGo ya no es la GPU de Nvidia, sino el chip TPU de desarrollo propio de Google.
Tres años después, se repitió un escenario similar. Tesla, una vez considerado como un cliente de referencia por Huang Renxun, también se despidió de la GPU Nvidia. Primero lanzó el chip para vehículos FSD con NPU como núcleo, y luego eliminó el chip D1 utilizado para construir clústeres de entrenamiento de IA. Li perdió dos de los clientes más importantes en la era de la IA.
Para 2022, el ciclo global de TI entrará en una fase descendente. Las principales empresas de computación en la nube recortarán los presupuestos de adquisición de GPU para los centros de datos uno tras otro. La marea de la minería de cadenas de bloques se enfriará gradualmente. Además, la prohibición de chips de EE. UU. en China hará que Es imposible vender A100/H100 a China. Para las tarjetas gráficas de gama alta, el inventario de Nvidia aumentó y el precio de sus acciones cayó 2/3 desde su punto máximo.
A fines de 2022, nació ChatGPT y las GPU, como combustible para la "alquimia" a gran escala, fueron nuevamente saqueadas. Nvidia tuvo un respiro, pero la tercera nube oscura siguió: el 18 de abril de 2023, el famoso medio tecnológico. The Information dio la noticia:* Microsoft, el iniciador de esta ronda de IA, está desarrollando en secreto su propio chip de IA* [2] 。
Este chip llamado Athena es fabricado por TSMC y utiliza un proceso avanzado de 5nm.El número del equipo de I+D de Microsoft es cercano a los 300. Obviamente, el objetivo de este chip es reemplazar el costoso A100/H100, proporcionar un motor de potencia informática para OpenAI y eventualmente arrebatarle el pastel a Nvidia a través del servicio en la nube Azure de Microsoft.
Microsoft es actualmente el mayor comprador del H100 de Nvidia, e incluso se rumoreaba que "terminaría" la capacidad de producción de todo el año del H100. La señal de ruptura de Microsoft es, sin duda, un rayo caído del cielo, debes saber que incluso cuando Intel estaba en su punto más oscuro, ninguno de sus clientes se "atrevió" a hacer sus propios chips de CPU (excepto Apple, que no los vende externamente). .
Aunque Nvidia actualmente monopoliza el 90% del mercado de la potencia informática de la IA con GPU+NVlink+CUDA, ha aparecido la primera grieta en el imperio **. **
01, la GPU que no nació para la IA
Desde el principio, las GPU no se crearon para la IA.
En octubre de 1999, Nvidia lanzó GeForce 256, un chip de procesamiento de gráficos basado en el proceso de 220nm de TSMC e integrando 23 millones de transistores. Nvidia extrajo las iniciales "GPU" de la Unidad de procesamiento de gráficos y nombró a GeForce 256 ** "la primera GPU del mundo".
En este momento, la inteligencia artificial ha estado en silencio durante muchos años, especialmente en el campo de las redes neuronales profundas. Los futuros ganadores del Premio Turing como Geoffery Hinton y Yann LeCun todavía están sentados en el banco académico y nunca piensan en sus carreras. , será completamente cambiado por una GPU desarrollada originalmente para jugadores.
¿Para quién nació la GPU? imagen. Más precisamente, nació para liberar a la CPU de la monotonía de la visualización de gráficos. El principio básico de la visualización de imágenes es dividir la imagen de cada cuadro en píxeles individuales y luego realizar múltiples procesos de representación, como procesamiento de vértices, procesamiento primitivo, rasterización, procesamiento de fragmentos, operación de píxeles, etc., y finalmente mostrar en la pantalla.
Fuente del proceso de procesamiento de píxeles a imágenes: compendio de gráficos
** ¿Por qué dices que esto es un trabajo duro? Haz un problema aritmético simple:**
Suponiendo que hay 300.000 píxeles en la pantalla, calculados a una velocidad de cuadro de 60 fps, se deben completar 18 millones de renderizaciones por segundo, cada vez que se incluyen los cinco pasos anteriores, correspondientes a cinco instrucciones, es decir, la CPU debe completar 90 millones de instrucciones por segundo para realizar presentaciones en pantalla de un segundo Como referencia, la CPU de mayor rendimiento de Intel en ese momento tenía solo 60 millones de cálculos por segundo.
No es porque la CPU sea débil, sino porque es bueno en la programación de subprocesos, por lo que se le da más espacio a la unidad de control y la unidad de almacenamiento, y la unidad de computación utilizada para el cálculo solo ocupa el 20% del espacio. Por el contrario, la GPU es más del 80% del espacio en la unidad de computación, lo que brinda capacidades de computación súper paralelas y es más adecuada para el trabajo de visualización de imágenes de paso fijo, repetitivo y aburrido.
La estructura interna de CPU y GPU, la parte verde es la unidad de computación
No fue hasta unos años más tarde que algunos estudiosos de la inteligencia artificial se dieron cuenta de que las GPU con tales características también son adecuadas para el entrenamiento de aprendizaje profundo. Muchas arquitecturas de redes neuronales profundas clásicas se han propuesto ya en la segunda mitad del siglo XX, pero debido a la falta de hardware informático para entrenarlas, muchos estudios solo pueden ser "en papel", y el desarrollo se ha estancado durante mucho tiempo. tiempo.
Un disparo en octubre de 1999 llevó las GPU a la inteligencia artificial. El proceso de entrenamiento del aprendizaje profundo consiste en realizar operaciones jerárquicas en cada valor de entrada de acuerdo con las funciones y parámetros de cada capa de la red neuronal, y finalmente obtener un valor de salida, lo que requiere una gran cantidad de operaciones matriciales al igual que la representación de gráficos. pasa a ser en lo que la GPU es mejor.
Una arquitectura de red neuronal profunda típica; fuente: hacia la ciencia de datos
Sin embargo, la imagen muestra que aunque la cantidad de procesamiento de datos es enorme, la mayoría de los pasos son fijos. Una vez que la red neuronal profunda se aplica al campo de la toma de decisiones, involucrará situaciones complejas como las estructuras de las ramas y los parámetros de cada capa debe ser entrenada en base a datos masivos de retroalimentación positiva y negativa. Estas diferencias han planteado peligros ocultos para la adaptabilidad de las GPU a la IA en el futuro.
El actual gerente general de Amazon AI/ML, Kumar Chellapilla, es el primer académico en comer cangrejos GPU. En 2006, utilizó la tarjeta gráfica GeForce 7800 de Nvidia para implementar la red neuronal convolucional (CNN) por primera vez y descubrió que era 4 veces más rápida que usar una CPU. Este es el primer intento conocido de usar GPU para el aprendizaje profundo [3] 。
Kumar Chellapilla y Nvidia Geforce 7800
El trabajo de Kumar no ha atraído mucha atención, principalmente debido a la alta complejidad de la programación basada en la GPU. Pero justo en ese momento, Nvidia lanzó la plataforma CUDA en 2007, lo que redujo en gran medida la dificultad de los desarrolladores de usar GPU para entrenar redes neuronales profundas, lo que hizo que los creyentes en el aprendizaje profundo vieran más esperanza.
Luego, en 2009, Wu Enda de Stanford y otros publicaron un artículo innovador [6] , GPU acorta el tiempo de entrenamiento de IA de semanas a horas en virtud de más de 70 veces la potencia informática de la CPU. Este documento señala el camino para la implementación de hardware de la inteligencia artificial. La GPU ha acelerado en gran medida el proceso de IA del papel a la realidad.
Andrew Ng (吴恩达)
Cabe mencionar que Wu Enda se unió a Google Brain en 2011 y es uno de los líderes del proyecto Google Cat mencionado al principio. La razón por la que Google Brain no usó la GPU al final es desconocida para los extraños, pero antes y después de que Wu Enda dejara Google para unirse a Baidu, ha habido rumores de que se debió a que la actitud de Google hacia la GPU no estaba clara.
**Después de la exploración de innumerables personas, finalmente se entregó el testigo al maestro de aprendizaje profundo Hinton, y el tiempo ya apuntaba a 2012. **
En 2012, Hinton y dos estudiantes, Alex Krizhevsky e Ilya Sutskeverz, diseñaron una red neuronal convolucional profunda, AlexNet, y planearon participar en la competencia ImageNet este año. Pero el problema es que puede llevar varios meses entrenar a AlexNet con una CPU, por lo que centraron su atención en la GPU.
Esta GPU, que es crucial en la historia del desarrollo del aprendizaje profundo, es la famosa "tarjeta gráfica bomba nuclear" GTX 580. Como el producto estrella de la última arquitectura Fermi de Nvidia, la GTX 580 está repleta de 512 núcleos CUDA (108 en la generación anterior). Si bien la potencia informática está aumentando, el consumo de energía exagerado y los problemas de generación de calor también han hecho que Nvidia sea nombrada "Fábrica de bombas nucleares". ".
A es arsénico, B es miel. En comparación con la "suavidad" al entrenar redes neuronales con GPU, el problema de la disipación de calor no es nada que mencionar. El equipo de Hinton completó con éxito la programación con la plataforma CUDA de Nvidia, con el apoyo de dos tarjetas gráficas GTX 580, el entrenamiento de 14 millones de imágenes tomó solo una semana y AlexNet ganó con éxito el campeonato.
**Debido a la influencia de la competencia ImageNet y del propio Hinton, todos los estudiosos de la inteligencia artificial se dieron cuenta de la importancia de la GPU en un instante. **
Dos años más tarde, Google tomó el modelo de GoogLeNet para participar en ImageNet y ganó el campeonato con una tasa de precisión del 93 % utilizando GPU NVIDIA. Este año, la cantidad de GPU utilizadas por todos los equipos participantes se disparó a 110. Fuera de las competencias, GPU se ha convertido en un "consumo imprescindible" para el aprendizaje profundo, enviando a Huang Renxun un flujo constante de pedidos.
Esto permitió a Nvidia deshacerse de la sombra del fiasco en el mercado móvil. Después del lanzamiento del iPhone en 2007, el pastel de chips para teléfonos inteligentes se expandió rápidamente. Nvidia también trató de obtener una parte del pastel de Samsung, Qualcomm y MediaTek El problema de disipación de calor falló. Al final, fue el campo de la inteligencia artificial rescatado por la GPU, lo que le dio a Nvidia una segunda curva de crecimiento.
Pero al fin y al cabo, la GPU no nació para entrenar redes neuronales, cuanto más rápido se desarrolle la inteligencia artificial, más expuestos estarán estos problemas.
Por ejemplo, aunque la GPU es significativamente diferente de la CPU, ambas siguen básicamente la estructura de von Neumann, y el almacenamiento y la operación están separados. El cuello de botella de eficiencia provocado por esta separación, después de todo, los pasos del procesamiento de imágenes son relativamente fijos y pueden resolverse con más operaciones paralelas, pero es muy fatal en una red neuronal con muchas estructuras ramificadas.
Cada vez que una red neuronal agrega una capa o una rama, necesita aumentar el acceso a la memoria para almacenar datos para retroceder, y el tiempo dedicado a esto es inevitable. Especialmente en la era de los modelos grandes, cuanto más grande es el modelo, más operaciones de acceso a la memoria deben realizarse: la energía consumida en el acceso a la memoria es muchas veces mayor que en la informática.
Una analogía simple es que la GPU es un hombre musculoso (con muchas unidades de cómputo), pero por cada instrucción que recibe, tiene que volver atrás y mirar el manual de instrucciones (memoria).Finalmente, a medida que aumenta el tamaño y la complejidad del modelo , el hombre El tiempo para el trabajo real es muy limitado y, en cambio, estoy tan cansado de hojear manuales que echo espuma por la boca.
Los problemas de memoria son solo una de las muchas "incomodidades" de las GPU en las aplicaciones de redes neuronales profundas. Nvidia estaba al tanto de estos problemas desde el principio y rápidamente comenzó a "modificar mágicamente" la GPU para hacerla más adecuada para escenarios de aplicaciones de inteligencia artificial; y los jugadores de IA que son muy conscientes del fuego también se están colando, tratando de usar los defectos de la GPU para abrir la esquina del imperio de Huang Renxun.
**Comienza una batalla ofensiva y defensiva. **
02, la oscura batalla entre Google y Nvidia
Ante la abrumadora demanda de poder de cómputo de IA y los defectos congénitos de la GPU, Huang Renxun ofreció dos conjuntos de soluciones para ir de la mano.
** El primer conjunto es continuar acumulando poder de cómputo violentamente a lo largo del camino de "la vieja hada del poder de cómputo tiene un poder mágico ilimitado". **En una era en la que la demanda de poder de cómputo de IA se duplica cada 3,5 meses, el poder de cómputo es la zanahoria que cuelga frente a los ojos de las empresas de inteligencia artificial, lo que les hace regañar a Huang Renxun por sus excelentes habilidades con la espada mientras lo agarra como un perro. Toda la capacidad de Nvidia.
**El segundo conjunto es para resolver gradualmente el desajuste entre GPU y escenarios de inteligencia artificial a través de "innovación mejorada". **Estos problemas incluyen, entre otros, consumo de energía, paredes de memoria, cuellos de botella de ancho de banda, cálculos de baja precisión, conexiones de alta velocidad, optimizaciones de modelos específicos... Desde 2012, Nvidia ha acelerado repentinamente la velocidad de las actualizaciones de arquitectura.
Después de que Nvidia lanzó CUDA, utilizó una arquitectura unificada para admitir los dos escenarios principales de gráficos y computación. La arquitectura de primera generación debutó en 2007 y se llamó Tesla, no porque Huang Renxun quisiera mostrar su favor a Musk, sino para rendir homenaje al físico Nikola Tesla (la primera generación fue la arquitectura Curie).
Desde entonces, cada generación de la arquitectura GPU de NVIDIA lleva el nombre de científicos famosos, como se muestra en la siguiente figura. En cada iteración de la arquitectura, Nvidia continúa acumulando poder de cómputo, mientras mejora sin "cortar músculos y huesos".
Por ejemplo, la arquitectura Fermi de segunda generación en 2011 tenía la desventaja de la disipación de calor, mientras que la arquitectura Kepler de tercera generación en 2012 cambió la idea de diseño general de alto rendimiento a eficiencia energética para mejorar la disipación de calor; y para resolver los problemas antes mencionados Para el problema de los "tontos musculares", la arquitectura Maxwell de cuarta generación en 2014 agregó más circuitos de control lógico en el interior para facilitar un control preciso.
Para adaptarse a la escena de la IA, la GPU "modificada mágicamente" de Nvidia se está volviendo cada vez más como una CPU hasta cierto punto, al igual que la excelente capacidad de programación de la CPU es a expensas de la potencia informática, Nvidia tiene que contenerse en el apilamiento de núcleos de computación. Sin embargo, no importa cómo cambie la GPU con la carga de la versatilidad, será difícil igualar el chip dedicado en el escenario de la IA.
** El primero en atacar a Nvidia fue Google, que fue el primero en comprar GPU a gran escala para la informática de IA. **
Después de mostrar sus músculos con GoogLeNet en 2014, Google ya no participó públicamente en la competencia de reconocimiento de máquinas y conspiró para desarrollar chips específicos para IA. En 2016, Google tomó la delantera con AlphaGo. Después de ganar Li Shishi, lanzó inmediatamente su chip TPU de IA de desarrollo propio, que sorprendió a Nvidia con una nueva arquitectura "nacida para IA".
TPU es el acrónimo de Unidad de procesamiento de tensores, y el nombre chino es "unidad de procesamiento de tensores". Si la "reforma mágica" de la GPU de Nvidia consiste en derribar la pared este para compensar la pared oeste, entonces la TPU reducirá fundamentalmente la demanda de almacenamiento y conexión, y transferirá el espacio del chip al cálculo en la mayor medida posible. En concreto, los dos Grandes medios:
**La primera es tecnología cuantitativa. **Los cálculos informáticos modernos suelen utilizar datos de alta precisión, que ocupan mucha memoria, pero, de hecho, la mayoría de los cálculos de redes neuronales no requieren precisión para llegar a cálculos de punto flotante de 32 o 16 bits. La tecnología consiste básicamente en combinar 32 bits/16 bits. Los números se aproximan a enteros de 8 bits, manteniendo la precisión adecuada y reduciendo los requisitos de almacenamiento.
La segunda es la matriz sistólica, que es la matriz de multiplicación de matriz, que es una de las diferencias más críticas entre TPU y GPU. En pocas palabras, las operaciones de redes neuronales requieren una gran cantidad de operaciones matriciales. La GPU solo puede desensamblar los cálculos matriciales en múltiples cálculos vectoriales paso a paso. Cada vez que se completa un grupo, necesita acceder a la memoria y guardar los resultados de esta capa hasta que se completen todos los cálculos vectoriales y luego combine los resultados de cada capa para obtener el valor de salida.
En la TPU, miles de unidades informáticas están conectadas directamente para formar una matriz de multiplicación de matrices. Como núcleo informático, los cálculos matriciales se pueden realizar directamente. Excepto para cargar datos y funciones al principio, no es necesario acceder a las unidades de almacenamiento, que reduce en gran medida el acceso.La frecuencia acelera en gran medida la velocidad de cálculo de la TPU, y el consumo de energía y la ocupación del espacio físico también se reducen en gran medida.
Comparación de tiempos de acceso a CPU, GPU, memoria de TPU (memoria)
La TPU de Google es muy rápida y solo tomó 15 meses desde el diseño, la verificación, la producción en masa hasta la implementación final en su propio centro de datos. Después de las pruebas, el rendimiento y el consumo de energía de TPU en CNN, LSTM, MLP y otros escenarios de IA superaron con creces a la GPU de Nvidia en el mismo período. **Toda la presión se le dio a Nvidia a la vez. **
Ser apuñalado por la espalda por un gran cliente es incómodo, pero Nvidia no se resistirá y será golpeada, y ha comenzado un tira y afloja.
Cinco meses después de que Google lanzara la TPU, Nvidia también presentó la arquitectura Pascal del proceso de 16nm. Por un lado, la nueva arquitectura presenta la famosa tecnología de interconexión bidireccional de alta velocidad NVLink, que mejora en gran medida el ancho de banda de la conexión; por otro lado, imita la tecnología de cuantificación de TPU y mejora la eficiencia informática de la red neuronal al reducir la precisión de los datos.
En 2017, Nvidia lanzó Volta, la primera arquitectura diseñada específicamente para el aprendizaje profundo, que introdujo por primera vez TensorCore, que se usa especialmente para operaciones matriciales, aunque la matriz de multiplicación 4×4 es la misma que la matriz de pulsos TPU 256×256. La relación es un poco lamentable, pero también es un compromiso hecho sobre la base de mantener la flexibilidad y la versatilidad.
Operación de matriz 4x4 implementada por TensorCore en Nvidia V100
Los ejecutivos de NVIDIA declararon a los clientes: ** "Volta no es una actualización de Pascal, sino una arquitectura completamente nueva".**
Google también corre contra el tiempo. Después de 2016, la TPU se ha actualizado para 3 generaciones en cinco años. Lanzó TPUv2 en 2017, TPUv3 en 2018 y TPUv4 en 2021, y puso los datos en la cara de Nvidia. [4] : **TPU v4 es 1,2-1,7 veces más rápido que el A100 de Nvidia, al tiempo que reduce el consumo de energía entre 1,3 y 1,9 veces. **
Google no vende chips de TPU al mundo exterior y, al mismo tiempo, continúa comprando GPU de Nvidia en grandes cantidades, lo que hace que la competencia de chips de IA entre los dos permanezca en la "guerra fría" en lugar de la "competencia abierta". Pero, después de todo, Google implementa la TPU en su propio sistema de servicios en la nube para proporcionar servicios de potencia informática de IA al mundo exterior, lo que sin duda reduce el mercado potencial de Nvidia.
El CEO de Google, Sundar Picha, demuestra TPU v4
Mientras los dos están "luchando en la oscuridad", el progreso en el campo de la inteligencia artificial también está progresando rápidamente. En 2017, Google propuso el revolucionario modelo Transformer, y luego OpenAI desarrolló GPT-1 basado en Transformer. Estalló la carrera armamentista de modelos grandes y la demanda de poder de cómputo de IA marcó el comienzo de la segunda aceleración desde la aparición de AlexNet en 2012. .
Después de darse cuenta de la nueva tendencia, Nvidia lanzó la arquitectura Hopper en 2022, presentando el motor de aceleración de Transformer a nivel de hardware por primera vez, afirmando que puede aumentar el tiempo de entrenamiento del modelo de lenguaje grande basado en Transformer en 9 veces. Basado en la arquitectura Hopper, Nvidia lanzó la "GPU más poderosa en la superficie": H100.
H100 es el último "monstruo de puntada" de Nvidia. Por un lado, presenta varias tecnologías de optimización de IA, como cuantificación, cálculo de matriz (Tensor Core 4.0) y motor de aceleración de transformador; por otro lado, está lleno de las fortalezas tradicionales de Nvidia, como 7296 CUDA Core, 80 GB de memoria HBM2 y tecnología de conexión NVLink 4.0 de hasta 900 GB/s.
Sosteniendo el H100 en la mano, Nvidia respiró aliviada temporalmente, no hay un chip producido en masa en el mercado que sea mejor que el H100.
El balancín secreto de Google y Nvidia también es un logro mutuo: Nvidia ha importado muchas tecnologías innovadoras de Google, y la investigación de vanguardia de Google sobre inteligencia artificial también se ha beneficiado plenamente de la innovación de la GPU de Nvidia. se reduce a un nivel que puede ser utilizado por un gran modelo de lenguaje "de puntillas". Aquellos que están en el centro de atención, como OpenAI, también están parados sobre los hombros de estos dos.
Pero los sentimientos pertenecen a los sentimientos y los negocios pertenecen a los negocios. La batalla ofensiva y defensiva en torno a la GPU ha hecho que la industria esté más segura de una cosa: **GPU no es la solución óptima para la IA, y los ASIC personalizados tienen la posibilidad de romper el monopolio de Nvidia. **Se han abierto las grietas, y Google no será el único que siga el gusto.
**Especialmente, la potencia informática se ha convertido en la demanda más segura en la era AGI, y todos quieren sentarse en la misma mesa con NVIDIA cuando comen. **
03, una grieta que se expande
Además de OpenAI, hay dos empresas listas para usar en esta ronda de auge de la IA. Una es la empresa de dibujo de IA Midjourney, cuya capacidad para controlar varios estilos de pintura asusta a innumerables artistas basados en el carbono; la otra es Authropic, cuyo fundador es de OpenAI. El robot de diálogo Claude jugaba con ChatGPT.
**Pero ninguna de estas dos empresas compró GPU Nvidia para crear supercomputación, sino que utilizó los servicios informáticos de Google. **
Para hacer frente a la explosión de la potencia informática de la IA, Google construyó una supercomputadora (TPU v4 Pod) con 4096 TPU. Los chips están interconectados con conmutadores de circuitos ópticos (OCS) de desarrollo propio, que no solo se pueden usar para entrenar su propio LaMDA. Los modelos de lenguaje grande como MUM y PaLM también pueden proporcionar servicios económicos y de alta calidad a las nuevas empresas de IA.
Supercomputación GoogleTPU v4 Pod
También está Tesla, que hace supercalculadoras por sí mismo. Después de lanzar el chip FSD montado en el vehículo, Tesla demostró al mundo exterior la supercomputadora Dojo ExaPOD construida con 3000 de sus propios chips D1 en agosto de 2021. Entre ellos, el chip D1 es fabricado por TSMC, utilizando tecnología de 7 nm, y 3000 chips D1 convierten directamente a Dojo en la quinta computadora con mayor potencia informática del mundo.
**Sin embargo, la combinación de los dos no se puede comparar con el impacto generado por el chip Athena de desarrollo propio de Microsoft. **
Microsoft es uno de los mayores clientes de Nvidia. Su propio servicio en la nube Azure ha comprado al menos decenas de miles de GPU de gama alta A100 y H100, SwiftKey y otros productos que utilizan IA.
Después de un cálculo cuidadoso, el "impuesto Nvidia" que debe pagar Microsoft es una cifra astronómica, y los chips de desarrollo propio son casi inevitables. Al igual que Ali calculó la futura demanda de computación en la nube, bases de datos y almacenamiento de Taobao Tmall, y descubrió que era una cifra astronómica, comenzó a apoyar de manera decisiva a Alibaba Cloud y lanzó una vigorosa campaña "de-IOE" internamente.
** El ahorro de costos es un aspecto, y la integración vertical para crear diferenciación es otro aspecto. **En la era de los teléfonos móviles, la CPU (AP), la memoria y la pantalla de los teléfonos móviles Samsung se fabrican y venden por sí mismos, lo que contribuye en gran medida a la hegemonía mundial de Android de Samsung. Los creadores de núcleos de Google y Microsoft también llevan a cabo la optimización a nivel de chip para sus propios servicios en la nube para crear diferencias.
Por lo tanto, a diferencia de Apple y Samsung, que no venden chips al mundo exterior, aunque los chips de IA de Google y Microsoft no se venderán al mundo exterior, digerirán a algunos de los clientes potenciales de Nvidia a través de "servicios de nube de potencia informática de IA". y Authropic son ejemplos Hay más empresas pequeñas (especialmente en la capa de aplicación de IA) que eligen servicios en la nube.
**La concentración del mercado mundial de computación en la nube es muy alta. Los cinco principales fabricantes (Amazon AWS, Microsoft Azure, Google Cloud, Alibaba Cloud e IBM) representan más del 60 % y todos fabrican sus propios chips de IA. Entre ellos, Google está progresando más rápido, IBM tiene las reservas más sólidas, Microsoft tiene el mayor impacto, Amazon tiene el mejor secreto y Ali tiene la mayoría de las dificultades. **
Los principales fabricantes nacionales desarrollan sus propios chips, y el final de Oppo Zheku arrojará una sombra sobre cada jugador que ingrese al campo. Sin embargo, las grandes empresas extranjeras investigan por sí mismas, y las cadenas de suministro de talento y tecnología se pueden construir con fondos. Por ejemplo, cuando Tesla se involucró en FSD, reclutó al dios de Silicon Valley, Jim Keller, y Google desarrolló TPU e invitó directamente Turing Ganador del premio, inventor de la arquitectura RISC Profesor David Patterson.
Además de los grandes fabricantes, algunas pequeñas y medianas empresas también están tratando de quitarle el pastel a Nvidia, como Graphcore, que alguna vez tuvo una valoración de 2.800 millones de dólares estadounidenses, y la doméstica Cambrian también pertenece a esta categoría. La siguiente tabla enumera las empresas emergentes de diseño de chips de IA más conocidas del mundo.
La dificultad para las nuevas empresas de chips de IA es que sin la inversión continua de grandes empresas con fuertes recursos financieros, no pueden autoproducirse y venderse como Google. A menos que la ruta técnica sea única o las ventajas sean particularmente fuertes, básicamente no hay oportunidad de ganar cuando se pelea con Nvidia El costo de este último y las ventajas ecológicas casi pueden suavizar todas las dudas de los clientes.
**El impacto de la puesta en marcha en Nvidia es limitado, y las preocupaciones ocultas de Huang Renxun siguen siendo esos grandes clientes que son deshonestos. **
Por supuesto, los principales fabricantes siguen siendo inseparables de Nvidia. Por ejemplo, aunque la TPU de Google se actualizó a la 4.ª generación, todavía necesita comprar GPU en grandes cantidades para proporcionar potencia informática junto con la TPU; elija comprar 10 000 GPU de NVIDIA.
Sin embargo, Huang Renxun ya ha experimentado la amistad plástica de los principales fabricantes de Musk. En 2018, Musk anunció públicamente que desarrollaría su propio chip para automóvil (en ese momento se usaba DRIVE PX de Nvidia). Huang Renxun fue interrogado por analistas en el lugar en una conferencia telefónica, y no pudo bajarse del escenario durante un mientras. Posteriormente, Musk emitió una "aclaración", pero un año después, Tesla aún se fue de Nvidia sin mirar atrás. [5] 。
Las grandes fábricas nunca han mostrado piedad en el ahorro de costos. Si bien los chips de Intel se venden al extremo B en la era de las PC, los consumidores tienen una fuerte opción de autonomía y los fabricantes deben publicitar "Intel Inside"; pero en la era de la nube de poder de cómputo, los gigantes pueden bloquear toda la información de hardware subyacente y también comprarán en el futuro Con una potencia informática de 100TFlops, ¿pueden los consumidores saber qué parte proviene de la TPU y qué parte proviene de la GPU?
Por lo tanto, Nvidia finalmente tiene que enfrentarse a la pregunta: **La GPU no nació para la IA, pero ¿será la GPU la solución óptima para la IA? **
Durante los últimos 17 años, Huang Renxun ha separado la GPU de una sola escena de juego y procesamiento de imágenes, convirtiéndola en una poderosa herramienta informática de propósito general. Nuevos escenarios continúan "modificando mágicamente" la GPU, tratando de encontrar un equilibrio entre "generalidad " y "especificidad".
En las últimas dos décadas, Nvidia ha introducido innumerables tecnologías nuevas que han cambiado la industria: plataforma CUDA, TensorCore, RT Core (trazado de rayos), NVLink, plataforma cuLitho (litografía computacional), precisión mixta, Omniverse, motor Transformer... Estos Las tecnologías han ayudado a Nvidia a pasar de ser una empresa de chips de segundo nivel a una muñeca Nanbo en el valor de mercado de toda la industria, lo cual no es inspirador.
Pero una generación debe tener una arquitectura informática de una era. El desarrollo de la inteligencia artificial avanza rápidamente y los avances tecnológicos se miden en horas. Si desea que la IA penetre en la vida humana tanto como lo hizo cuando las PC/teléfonos inteligentes se hicieron populares, entonces potencia informática Es posible que los costos deban reducirse en un 99 % y, de hecho, es posible que las GPU no sean la única respuesta.
**La historia nos dice que no importa cuán próspero sea un imperio, debe tener cuidado con esa grieta discreta. **
Referencias
[1] Clasificación de ImageNet con redes neuronales convolucionales profundas, Hinton
[2] Microsoft prepara un chip de inteligencia artificial a medida que aumentan los costos de aprendizaje automático, la información
[3] Redes neuronales convolucionales de alto rendimiento para el procesamiento de documentos
[4] Cloud TPU v4 de Google proporciona aprendizaje automático a escala exaFLOPS con una eficiencia líder en la industria
[5] Las ambiciones de IA de Tesla, Instituto de Investigación Tokawa
[6] Aprendizaje profundo no supervisado a gran escala mediante procesadores de gráficos
Ver originales
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
Una grieta en el imperio de Nvidia
Fuente: Instituto a base de silicio
Autor: He Luheng/Boss Dai
En 2012, ocurrieron dos eventos importantes en el círculo de IA. En orden cronológico, el primero fue el lanzamiento de Google Brain, un equipo de Google de larga data, como su "trabajo de debut": una red de aprendizaje profundo "Google Cat " que puede reconocer gatos, con un 74,8 % de reconocimiento. La tasa de precisión es un 0,8 % superior al 74 % del algoritmo ganador del conocido concurso de reconocimiento de imágenes ImageNet el año anterior.
Pero los momentos de alto perfil de Google duraron solo unos meses. En diciembre de 2012 se dio a conocer el ganador del último ImageNet, el maestro de aprendizaje profundo Hinton y sus discípulos trajeron la red neuronal convolucional AlexNet, que elevó la tasa de precisión de reconocimiento al 84%, iniciando así la revolución de la IA del próximo década Google Cat fue enterrado en el polvo de la historia.
No fue solo el modelo de ImageNet en sí lo que conmocionó a la industria. Esta red neuronal, que requiere 14 millones de imágenes y un total de 262 petaflops de operaciones de punto flotante, utilizó solo cuatro NVIDIA Geforce GTX 580 durante una semana de entrenamiento. Como referencia, Google Cat usó 10 millones de imágenes, 16 000 CPU y 1000 computadoras [1] 。
Se rumorea que Google también participó en secreto en la competencia de este año, y el impacto que recibió se reflejó directamente en la siguiente acción: Google gastó $ 44 millones para adquirir el equipo de Hinton e inmediatamente realizó un pedido a Nvidia por una gran cantidad de GPU. para inteligencia artificial La capacitación y, al mismo tiempo, los "bienes de barrido" también son gigantes como Microsoft y Facebook.
** Nvidia se convirtió en el mayor ganador y el precio de sus acciones aumentó un máximo de 121 veces en los siguientes 10 años. Nace un imperio. **
Pero sobre el imperio, dos nubes oscuras se acumularon gradualmente. Google, que compró productos de Nvidia en ese entonces, hizo un impresionante debut con AlphaGo tres años después y derrotó al campeón humano Ke Jie en 2017. La gente entusiasta descubrió que el chip que maneja AlphaGo ya no es la GPU de Nvidia, sino el chip TPU de desarrollo propio de Google.
Tres años después, se repitió un escenario similar. Tesla, una vez considerado como un cliente de referencia por Huang Renxun, también se despidió de la GPU Nvidia. Primero lanzó el chip para vehículos FSD con NPU como núcleo, y luego eliminó el chip D1 utilizado para construir clústeres de entrenamiento de IA. Li perdió dos de los clientes más importantes en la era de la IA.
Para 2022, el ciclo global de TI entrará en una fase descendente. Las principales empresas de computación en la nube recortarán los presupuestos de adquisición de GPU para los centros de datos uno tras otro. La marea de la minería de cadenas de bloques se enfriará gradualmente. Además, la prohibición de chips de EE. UU. en China hará que Es imposible vender A100/H100 a China. Para las tarjetas gráficas de gama alta, el inventario de Nvidia aumentó y el precio de sus acciones cayó 2/3 desde su punto máximo.
A fines de 2022, nació ChatGPT y las GPU, como combustible para la "alquimia" a gran escala, fueron nuevamente saqueadas. Nvidia tuvo un respiro, pero la tercera nube oscura siguió: el 18 de abril de 2023, el famoso medio tecnológico. The Information dio la noticia:* Microsoft, el iniciador de esta ronda de IA, está desarrollando en secreto su propio chip de IA* [2] 。
Este chip llamado Athena es fabricado por TSMC y utiliza un proceso avanzado de 5nm.El número del equipo de I+D de Microsoft es cercano a los 300. Obviamente, el objetivo de este chip es reemplazar el costoso A100/H100, proporcionar un motor de potencia informática para OpenAI y eventualmente arrebatarle el pastel a Nvidia a través del servicio en la nube Azure de Microsoft.
Microsoft es actualmente el mayor comprador del H100 de Nvidia, e incluso se rumoreaba que "terminaría" la capacidad de producción de todo el año del H100. La señal de ruptura de Microsoft es, sin duda, un rayo caído del cielo, debes saber que incluso cuando Intel estaba en su punto más oscuro, ninguno de sus clientes se "atrevió" a hacer sus propios chips de CPU (excepto Apple, que no los vende externamente). .
Aunque Nvidia actualmente monopoliza el 90% del mercado de la potencia informática de la IA con GPU+NVlink+CUDA, ha aparecido la primera grieta en el imperio **. **
01, la GPU que no nació para la IA
Desde el principio, las GPU no se crearon para la IA.
En octubre de 1999, Nvidia lanzó GeForce 256, un chip de procesamiento de gráficos basado en el proceso de 220nm de TSMC e integrando 23 millones de transistores. Nvidia extrajo las iniciales "GPU" de la Unidad de procesamiento de gráficos y nombró a GeForce 256 ** "la primera GPU del mundo".
En este momento, la inteligencia artificial ha estado en silencio durante muchos años, especialmente en el campo de las redes neuronales profundas. Los futuros ganadores del Premio Turing como Geoffery Hinton y Yann LeCun todavía están sentados en el banco académico y nunca piensan en sus carreras. , será completamente cambiado por una GPU desarrollada originalmente para jugadores.
¿Para quién nació la GPU? imagen. Más precisamente, nació para liberar a la CPU de la monotonía de la visualización de gráficos. El principio básico de la visualización de imágenes es dividir la imagen de cada cuadro en píxeles individuales y luego realizar múltiples procesos de representación, como procesamiento de vértices, procesamiento primitivo, rasterización, procesamiento de fragmentos, operación de píxeles, etc., y finalmente mostrar en la pantalla.
** ¿Por qué dices que esto es un trabajo duro? Haz un problema aritmético simple:**
Suponiendo que hay 300.000 píxeles en la pantalla, calculados a una velocidad de cuadro de 60 fps, se deben completar 18 millones de renderizaciones por segundo, cada vez que se incluyen los cinco pasos anteriores, correspondientes a cinco instrucciones, es decir, la CPU debe completar 90 millones de instrucciones por segundo para realizar presentaciones en pantalla de un segundo Como referencia, la CPU de mayor rendimiento de Intel en ese momento tenía solo 60 millones de cálculos por segundo.
No es porque la CPU sea débil, sino porque es bueno en la programación de subprocesos, por lo que se le da más espacio a la unidad de control y la unidad de almacenamiento, y la unidad de computación utilizada para el cálculo solo ocupa el 20% del espacio. Por el contrario, la GPU es más del 80% del espacio en la unidad de computación, lo que brinda capacidades de computación súper paralelas y es más adecuada para el trabajo de visualización de imágenes de paso fijo, repetitivo y aburrido.
No fue hasta unos años más tarde que algunos estudiosos de la inteligencia artificial se dieron cuenta de que las GPU con tales características también son adecuadas para el entrenamiento de aprendizaje profundo. Muchas arquitecturas de redes neuronales profundas clásicas se han propuesto ya en la segunda mitad del siglo XX, pero debido a la falta de hardware informático para entrenarlas, muchos estudios solo pueden ser "en papel", y el desarrollo se ha estancado durante mucho tiempo. tiempo.
Un disparo en octubre de 1999 llevó las GPU a la inteligencia artificial. El proceso de entrenamiento del aprendizaje profundo consiste en realizar operaciones jerárquicas en cada valor de entrada de acuerdo con las funciones y parámetros de cada capa de la red neuronal, y finalmente obtener un valor de salida, lo que requiere una gran cantidad de operaciones matriciales al igual que la representación de gráficos. pasa a ser en lo que la GPU es mejor.
Sin embargo, la imagen muestra que aunque la cantidad de procesamiento de datos es enorme, la mayoría de los pasos son fijos. Una vez que la red neuronal profunda se aplica al campo de la toma de decisiones, involucrará situaciones complejas como las estructuras de las ramas y los parámetros de cada capa debe ser entrenada en base a datos masivos de retroalimentación positiva y negativa. Estas diferencias han planteado peligros ocultos para la adaptabilidad de las GPU a la IA en el futuro.
El actual gerente general de Amazon AI/ML, Kumar Chellapilla, es el primer académico en comer cangrejos GPU. En 2006, utilizó la tarjeta gráfica GeForce 7800 de Nvidia para implementar la red neuronal convolucional (CNN) por primera vez y descubrió que era 4 veces más rápida que usar una CPU. Este es el primer intento conocido de usar GPU para el aprendizaje profundo [3] 。
El trabajo de Kumar no ha atraído mucha atención, principalmente debido a la alta complejidad de la programación basada en la GPU. Pero justo en ese momento, Nvidia lanzó la plataforma CUDA en 2007, lo que redujo en gran medida la dificultad de los desarrolladores de usar GPU para entrenar redes neuronales profundas, lo que hizo que los creyentes en el aprendizaje profundo vieran más esperanza.
Luego, en 2009, Wu Enda de Stanford y otros publicaron un artículo innovador [6] , GPU acorta el tiempo de entrenamiento de IA de semanas a horas en virtud de más de 70 veces la potencia informática de la CPU. Este documento señala el camino para la implementación de hardware de la inteligencia artificial. La GPU ha acelerado en gran medida el proceso de IA del papel a la realidad.
Cabe mencionar que Wu Enda se unió a Google Brain en 2011 y es uno de los líderes del proyecto Google Cat mencionado al principio. La razón por la que Google Brain no usó la GPU al final es desconocida para los extraños, pero antes y después de que Wu Enda dejara Google para unirse a Baidu, ha habido rumores de que se debió a que la actitud de Google hacia la GPU no estaba clara.
**Después de la exploración de innumerables personas, finalmente se entregó el testigo al maestro de aprendizaje profundo Hinton, y el tiempo ya apuntaba a 2012. **
En 2012, Hinton y dos estudiantes, Alex Krizhevsky e Ilya Sutskeverz, diseñaron una red neuronal convolucional profunda, AlexNet, y planearon participar en la competencia ImageNet este año. Pero el problema es que puede llevar varios meses entrenar a AlexNet con una CPU, por lo que centraron su atención en la GPU.
Esta GPU, que es crucial en la historia del desarrollo del aprendizaje profundo, es la famosa "tarjeta gráfica bomba nuclear" GTX 580. Como el producto estrella de la última arquitectura Fermi de Nvidia, la GTX 580 está repleta de 512 núcleos CUDA (108 en la generación anterior). Si bien la potencia informática está aumentando, el consumo de energía exagerado y los problemas de generación de calor también han hecho que Nvidia sea nombrada "Fábrica de bombas nucleares". ".
A es arsénico, B es miel. En comparación con la "suavidad" al entrenar redes neuronales con GPU, el problema de la disipación de calor no es nada que mencionar. El equipo de Hinton completó con éxito la programación con la plataforma CUDA de Nvidia, con el apoyo de dos tarjetas gráficas GTX 580, el entrenamiento de 14 millones de imágenes tomó solo una semana y AlexNet ganó con éxito el campeonato.
**Debido a la influencia de la competencia ImageNet y del propio Hinton, todos los estudiosos de la inteligencia artificial se dieron cuenta de la importancia de la GPU en un instante. **
Dos años más tarde, Google tomó el modelo de GoogLeNet para participar en ImageNet y ganó el campeonato con una tasa de precisión del 93 % utilizando GPU NVIDIA. Este año, la cantidad de GPU utilizadas por todos los equipos participantes se disparó a 110. Fuera de las competencias, GPU se ha convertido en un "consumo imprescindible" para el aprendizaje profundo, enviando a Huang Renxun un flujo constante de pedidos.
Esto permitió a Nvidia deshacerse de la sombra del fiasco en el mercado móvil. Después del lanzamiento del iPhone en 2007, el pastel de chips para teléfonos inteligentes se expandió rápidamente. Nvidia también trató de obtener una parte del pastel de Samsung, Qualcomm y MediaTek El problema de disipación de calor falló. Al final, fue el campo de la inteligencia artificial rescatado por la GPU, lo que le dio a Nvidia una segunda curva de crecimiento.
Pero al fin y al cabo, la GPU no nació para entrenar redes neuronales, cuanto más rápido se desarrolle la inteligencia artificial, más expuestos estarán estos problemas.
Por ejemplo, aunque la GPU es significativamente diferente de la CPU, ambas siguen básicamente la estructura de von Neumann, y el almacenamiento y la operación están separados. El cuello de botella de eficiencia provocado por esta separación, después de todo, los pasos del procesamiento de imágenes son relativamente fijos y pueden resolverse con más operaciones paralelas, pero es muy fatal en una red neuronal con muchas estructuras ramificadas.
Cada vez que una red neuronal agrega una capa o una rama, necesita aumentar el acceso a la memoria para almacenar datos para retroceder, y el tiempo dedicado a esto es inevitable. Especialmente en la era de los modelos grandes, cuanto más grande es el modelo, más operaciones de acceso a la memoria deben realizarse: la energía consumida en el acceso a la memoria es muchas veces mayor que en la informática.
Una analogía simple es que la GPU es un hombre musculoso (con muchas unidades de cómputo), pero por cada instrucción que recibe, tiene que volver atrás y mirar el manual de instrucciones (memoria).Finalmente, a medida que aumenta el tamaño y la complejidad del modelo , el hombre El tiempo para el trabajo real es muy limitado y, en cambio, estoy tan cansado de hojear manuales que echo espuma por la boca.
Los problemas de memoria son solo una de las muchas "incomodidades" de las GPU en las aplicaciones de redes neuronales profundas. Nvidia estaba al tanto de estos problemas desde el principio y rápidamente comenzó a "modificar mágicamente" la GPU para hacerla más adecuada para escenarios de aplicaciones de inteligencia artificial; y los jugadores de IA que son muy conscientes del fuego también se están colando, tratando de usar los defectos de la GPU para abrir la esquina del imperio de Huang Renxun.
**Comienza una batalla ofensiva y defensiva. **
02, la oscura batalla entre Google y Nvidia
Ante la abrumadora demanda de poder de cómputo de IA y los defectos congénitos de la GPU, Huang Renxun ofreció dos conjuntos de soluciones para ir de la mano.
** El primer conjunto es continuar acumulando poder de cómputo violentamente a lo largo del camino de "la vieja hada del poder de cómputo tiene un poder mágico ilimitado". **En una era en la que la demanda de poder de cómputo de IA se duplica cada 3,5 meses, el poder de cómputo es la zanahoria que cuelga frente a los ojos de las empresas de inteligencia artificial, lo que les hace regañar a Huang Renxun por sus excelentes habilidades con la espada mientras lo agarra como un perro. Toda la capacidad de Nvidia.
**El segundo conjunto es para resolver gradualmente el desajuste entre GPU y escenarios de inteligencia artificial a través de "innovación mejorada". **Estos problemas incluyen, entre otros, consumo de energía, paredes de memoria, cuellos de botella de ancho de banda, cálculos de baja precisión, conexiones de alta velocidad, optimizaciones de modelos específicos... Desde 2012, Nvidia ha acelerado repentinamente la velocidad de las actualizaciones de arquitectura.
Después de que Nvidia lanzó CUDA, utilizó una arquitectura unificada para admitir los dos escenarios principales de gráficos y computación. La arquitectura de primera generación debutó en 2007 y se llamó Tesla, no porque Huang Renxun quisiera mostrar su favor a Musk, sino para rendir homenaje al físico Nikola Tesla (la primera generación fue la arquitectura Curie).
Desde entonces, cada generación de la arquitectura GPU de NVIDIA lleva el nombre de científicos famosos, como se muestra en la siguiente figura. En cada iteración de la arquitectura, Nvidia continúa acumulando poder de cómputo, mientras mejora sin "cortar músculos y huesos".
Para adaptarse a la escena de la IA, la GPU "modificada mágicamente" de Nvidia se está volviendo cada vez más como una CPU hasta cierto punto, al igual que la excelente capacidad de programación de la CPU es a expensas de la potencia informática, Nvidia tiene que contenerse en el apilamiento de núcleos de computación. Sin embargo, no importa cómo cambie la GPU con la carga de la versatilidad, será difícil igualar el chip dedicado en el escenario de la IA.
** El primero en atacar a Nvidia fue Google, que fue el primero en comprar GPU a gran escala para la informática de IA. **
Después de mostrar sus músculos con GoogLeNet en 2014, Google ya no participó públicamente en la competencia de reconocimiento de máquinas y conspiró para desarrollar chips específicos para IA. En 2016, Google tomó la delantera con AlphaGo. Después de ganar Li Shishi, lanzó inmediatamente su chip TPU de IA de desarrollo propio, que sorprendió a Nvidia con una nueva arquitectura "nacida para IA".
TPU es el acrónimo de Unidad de procesamiento de tensores, y el nombre chino es "unidad de procesamiento de tensores". Si la "reforma mágica" de la GPU de Nvidia consiste en derribar la pared este para compensar la pared oeste, entonces la TPU reducirá fundamentalmente la demanda de almacenamiento y conexión, y transferirá el espacio del chip al cálculo en la mayor medida posible. En concreto, los dos Grandes medios:
**La primera es tecnología cuantitativa. **Los cálculos informáticos modernos suelen utilizar datos de alta precisión, que ocupan mucha memoria, pero, de hecho, la mayoría de los cálculos de redes neuronales no requieren precisión para llegar a cálculos de punto flotante de 32 o 16 bits. La tecnología consiste básicamente en combinar 32 bits/16 bits. Los números se aproximan a enteros de 8 bits, manteniendo la precisión adecuada y reduciendo los requisitos de almacenamiento.
La segunda es la matriz sistólica, que es la matriz de multiplicación de matriz, que es una de las diferencias más críticas entre TPU y GPU. En pocas palabras, las operaciones de redes neuronales requieren una gran cantidad de operaciones matriciales. La GPU solo puede desensamblar los cálculos matriciales en múltiples cálculos vectoriales paso a paso. Cada vez que se completa un grupo, necesita acceder a la memoria y guardar los resultados de esta capa hasta que se completen todos los cálculos vectoriales y luego combine los resultados de cada capa para obtener el valor de salida.
En la TPU, miles de unidades informáticas están conectadas directamente para formar una matriz de multiplicación de matrices. Como núcleo informático, los cálculos matriciales se pueden realizar directamente. Excepto para cargar datos y funciones al principio, no es necesario acceder a las unidades de almacenamiento, que reduce en gran medida el acceso.La frecuencia acelera en gran medida la velocidad de cálculo de la TPU, y el consumo de energía y la ocupación del espacio físico también se reducen en gran medida.
La TPU de Google es muy rápida y solo tomó 15 meses desde el diseño, la verificación, la producción en masa hasta la implementación final en su propio centro de datos. Después de las pruebas, el rendimiento y el consumo de energía de TPU en CNN, LSTM, MLP y otros escenarios de IA superaron con creces a la GPU de Nvidia en el mismo período. **Toda la presión se le dio a Nvidia a la vez. **
Ser apuñalado por la espalda por un gran cliente es incómodo, pero Nvidia no se resistirá y será golpeada, y ha comenzado un tira y afloja.
Cinco meses después de que Google lanzara la TPU, Nvidia también presentó la arquitectura Pascal del proceso de 16nm. Por un lado, la nueva arquitectura presenta la famosa tecnología de interconexión bidireccional de alta velocidad NVLink, que mejora en gran medida el ancho de banda de la conexión; por otro lado, imita la tecnología de cuantificación de TPU y mejora la eficiencia informática de la red neuronal al reducir la precisión de los datos.
En 2017, Nvidia lanzó Volta, la primera arquitectura diseñada específicamente para el aprendizaje profundo, que introdujo por primera vez TensorCore, que se usa especialmente para operaciones matriciales, aunque la matriz de multiplicación 4×4 es la misma que la matriz de pulsos TPU 256×256. La relación es un poco lamentable, pero también es un compromiso hecho sobre la base de mantener la flexibilidad y la versatilidad.
Los ejecutivos de NVIDIA declararon a los clientes: ** "Volta no es una actualización de Pascal, sino una arquitectura completamente nueva".**
Google también corre contra el tiempo. Después de 2016, la TPU se ha actualizado para 3 generaciones en cinco años. Lanzó TPUv2 en 2017, TPUv3 en 2018 y TPUv4 en 2021, y puso los datos en la cara de Nvidia. [4] : **TPU v4 es 1,2-1,7 veces más rápido que el A100 de Nvidia, al tiempo que reduce el consumo de energía entre 1,3 y 1,9 veces. **
Google no vende chips de TPU al mundo exterior y, al mismo tiempo, continúa comprando GPU de Nvidia en grandes cantidades, lo que hace que la competencia de chips de IA entre los dos permanezca en la "guerra fría" en lugar de la "competencia abierta". Pero, después de todo, Google implementa la TPU en su propio sistema de servicios en la nube para proporcionar servicios de potencia informática de IA al mundo exterior, lo que sin duda reduce el mercado potencial de Nvidia.
Mientras los dos están "luchando en la oscuridad", el progreso en el campo de la inteligencia artificial también está progresando rápidamente. En 2017, Google propuso el revolucionario modelo Transformer, y luego OpenAI desarrolló GPT-1 basado en Transformer. Estalló la carrera armamentista de modelos grandes y la demanda de poder de cómputo de IA marcó el comienzo de la segunda aceleración desde la aparición de AlexNet en 2012. .
Después de darse cuenta de la nueva tendencia, Nvidia lanzó la arquitectura Hopper en 2022, presentando el motor de aceleración de Transformer a nivel de hardware por primera vez, afirmando que puede aumentar el tiempo de entrenamiento del modelo de lenguaje grande basado en Transformer en 9 veces. Basado en la arquitectura Hopper, Nvidia lanzó la "GPU más poderosa en la superficie": H100.
H100 es el último "monstruo de puntada" de Nvidia. Por un lado, presenta varias tecnologías de optimización de IA, como cuantificación, cálculo de matriz (Tensor Core 4.0) y motor de aceleración de transformador; por otro lado, está lleno de las fortalezas tradicionales de Nvidia, como 7296 CUDA Core, 80 GB de memoria HBM2 y tecnología de conexión NVLink 4.0 de hasta 900 GB/s.
Sosteniendo el H100 en la mano, Nvidia respiró aliviada temporalmente, no hay un chip producido en masa en el mercado que sea mejor que el H100.
El balancín secreto de Google y Nvidia también es un logro mutuo: Nvidia ha importado muchas tecnologías innovadoras de Google, y la investigación de vanguardia de Google sobre inteligencia artificial también se ha beneficiado plenamente de la innovación de la GPU de Nvidia. se reduce a un nivel que puede ser utilizado por un gran modelo de lenguaje "de puntillas". Aquellos que están en el centro de atención, como OpenAI, también están parados sobre los hombros de estos dos.
Pero los sentimientos pertenecen a los sentimientos y los negocios pertenecen a los negocios. La batalla ofensiva y defensiva en torno a la GPU ha hecho que la industria esté más segura de una cosa: **GPU no es la solución óptima para la IA, y los ASIC personalizados tienen la posibilidad de romper el monopolio de Nvidia. **Se han abierto las grietas, y Google no será el único que siga el gusto.
**Especialmente, la potencia informática se ha convertido en la demanda más segura en la era AGI, y todos quieren sentarse en la misma mesa con NVIDIA cuando comen. **
03, una grieta que se expande
Además de OpenAI, hay dos empresas listas para usar en esta ronda de auge de la IA. Una es la empresa de dibujo de IA Midjourney, cuya capacidad para controlar varios estilos de pintura asusta a innumerables artistas basados en el carbono; la otra es Authropic, cuyo fundador es de OpenAI. El robot de diálogo Claude jugaba con ChatGPT.
**Pero ninguna de estas dos empresas compró GPU Nvidia para crear supercomputación, sino que utilizó los servicios informáticos de Google. **
Para hacer frente a la explosión de la potencia informática de la IA, Google construyó una supercomputadora (TPU v4 Pod) con 4096 TPU. Los chips están interconectados con conmutadores de circuitos ópticos (OCS) de desarrollo propio, que no solo se pueden usar para entrenar su propio LaMDA. Los modelos de lenguaje grande como MUM y PaLM también pueden proporcionar servicios económicos y de alta calidad a las nuevas empresas de IA.
También está Tesla, que hace supercalculadoras por sí mismo. Después de lanzar el chip FSD montado en el vehículo, Tesla demostró al mundo exterior la supercomputadora Dojo ExaPOD construida con 3000 de sus propios chips D1 en agosto de 2021. Entre ellos, el chip D1 es fabricado por TSMC, utilizando tecnología de 7 nm, y 3000 chips D1 convierten directamente a Dojo en la quinta computadora con mayor potencia informática del mundo.
**Sin embargo, la combinación de los dos no se puede comparar con el impacto generado por el chip Athena de desarrollo propio de Microsoft. **
Microsoft es uno de los mayores clientes de Nvidia. Su propio servicio en la nube Azure ha comprado al menos decenas de miles de GPU de gama alta A100 y H100, SwiftKey y otros productos que utilizan IA.
Después de un cálculo cuidadoso, el "impuesto Nvidia" que debe pagar Microsoft es una cifra astronómica, y los chips de desarrollo propio son casi inevitables. Al igual que Ali calculó la futura demanda de computación en la nube, bases de datos y almacenamiento de Taobao Tmall, y descubrió que era una cifra astronómica, comenzó a apoyar de manera decisiva a Alibaba Cloud y lanzó una vigorosa campaña "de-IOE" internamente.
** El ahorro de costos es un aspecto, y la integración vertical para crear diferenciación es otro aspecto. **En la era de los teléfonos móviles, la CPU (AP), la memoria y la pantalla de los teléfonos móviles Samsung se fabrican y venden por sí mismos, lo que contribuye en gran medida a la hegemonía mundial de Android de Samsung. Los creadores de núcleos de Google y Microsoft también llevan a cabo la optimización a nivel de chip para sus propios servicios en la nube para crear diferencias.
Por lo tanto, a diferencia de Apple y Samsung, que no venden chips al mundo exterior, aunque los chips de IA de Google y Microsoft no se venderán al mundo exterior, digerirán a algunos de los clientes potenciales de Nvidia a través de "servicios de nube de potencia informática de IA". y Authropic son ejemplos Hay más empresas pequeñas (especialmente en la capa de aplicación de IA) que eligen servicios en la nube.
**La concentración del mercado mundial de computación en la nube es muy alta. Los cinco principales fabricantes (Amazon AWS, Microsoft Azure, Google Cloud, Alibaba Cloud e IBM) representan más del 60 % y todos fabrican sus propios chips de IA. Entre ellos, Google está progresando más rápido, IBM tiene las reservas más sólidas, Microsoft tiene el mayor impacto, Amazon tiene el mejor secreto y Ali tiene la mayoría de las dificultades. **
Los principales fabricantes nacionales desarrollan sus propios chips, y el final de Oppo Zheku arrojará una sombra sobre cada jugador que ingrese al campo. Sin embargo, las grandes empresas extranjeras investigan por sí mismas, y las cadenas de suministro de talento y tecnología se pueden construir con fondos. Por ejemplo, cuando Tesla se involucró en FSD, reclutó al dios de Silicon Valley, Jim Keller, y Google desarrolló TPU e invitó directamente Turing Ganador del premio, inventor de la arquitectura RISC Profesor David Patterson.
La dificultad para las nuevas empresas de chips de IA es que sin la inversión continua de grandes empresas con fuertes recursos financieros, no pueden autoproducirse y venderse como Google. A menos que la ruta técnica sea única o las ventajas sean particularmente fuertes, básicamente no hay oportunidad de ganar cuando se pelea con Nvidia El costo de este último y las ventajas ecológicas casi pueden suavizar todas las dudas de los clientes.
**El impacto de la puesta en marcha en Nvidia es limitado, y las preocupaciones ocultas de Huang Renxun siguen siendo esos grandes clientes que son deshonestos. **
Por supuesto, los principales fabricantes siguen siendo inseparables de Nvidia. Por ejemplo, aunque la TPU de Google se actualizó a la 4.ª generación, todavía necesita comprar GPU en grandes cantidades para proporcionar potencia informática junto con la TPU; elija comprar 10 000 GPU de NVIDIA.
Sin embargo, Huang Renxun ya ha experimentado la amistad plástica de los principales fabricantes de Musk. En 2018, Musk anunció públicamente que desarrollaría su propio chip para automóvil (en ese momento se usaba DRIVE PX de Nvidia). Huang Renxun fue interrogado por analistas en el lugar en una conferencia telefónica, y no pudo bajarse del escenario durante un mientras. Posteriormente, Musk emitió una "aclaración", pero un año después, Tesla aún se fue de Nvidia sin mirar atrás. [5] 。
Las grandes fábricas nunca han mostrado piedad en el ahorro de costos. Si bien los chips de Intel se venden al extremo B en la era de las PC, los consumidores tienen una fuerte opción de autonomía y los fabricantes deben publicitar "Intel Inside"; pero en la era de la nube de poder de cómputo, los gigantes pueden bloquear toda la información de hardware subyacente y también comprarán en el futuro Con una potencia informática de 100TFlops, ¿pueden los consumidores saber qué parte proviene de la TPU y qué parte proviene de la GPU?
Por lo tanto, Nvidia finalmente tiene que enfrentarse a la pregunta: **La GPU no nació para la IA, pero ¿será la GPU la solución óptima para la IA? **
Durante los últimos 17 años, Huang Renxun ha separado la GPU de una sola escena de juego y procesamiento de imágenes, convirtiéndola en una poderosa herramienta informática de propósito general. Nuevos escenarios continúan "modificando mágicamente" la GPU, tratando de encontrar un equilibrio entre "generalidad " y "especificidad".
En las últimas dos décadas, Nvidia ha introducido innumerables tecnologías nuevas que han cambiado la industria: plataforma CUDA, TensorCore, RT Core (trazado de rayos), NVLink, plataforma cuLitho (litografía computacional), precisión mixta, Omniverse, motor Transformer... Estos Las tecnologías han ayudado a Nvidia a pasar de ser una empresa de chips de segundo nivel a una muñeca Nanbo en el valor de mercado de toda la industria, lo cual no es inspirador.
Pero una generación debe tener una arquitectura informática de una era. El desarrollo de la inteligencia artificial avanza rápidamente y los avances tecnológicos se miden en horas. Si desea que la IA penetre en la vida humana tanto como lo hizo cuando las PC/teléfonos inteligentes se hicieron populares, entonces potencia informática Es posible que los costos deban reducirse en un 99 % y, de hecho, es posible que las GPU no sean la única respuesta.
**La historia nos dice que no importa cuán próspero sea un imperio, debe tener cuidado con esa grieta discreta. **
Referencias
[1] Clasificación de ImageNet con redes neuronales convolucionales profundas, Hinton
[2] Microsoft prepara un chip de inteligencia artificial a medida que aumentan los costos de aprendizaje automático, la información
[3] Redes neuronales convolucionales de alto rendimiento para el procesamiento de documentos
[4] Cloud TPU v4 de Google proporciona aprendizaje automático a escala exaFLOPS con una eficiencia líder en la industria
[5] Las ambiciones de IA de Tesla, Instituto de Investigación Tokawa
[6] Aprendizaje profundo no supervisado a gran escala mediante procesadores de gráficos