Em 2012, dois grandes eventos ocorreram no círculo de IA. Em ordem cronológica, o primeiro foi o lançamento do Google Brain, uma equipe de longa data do Google, como seu "trabalho de estreia" - uma rede de aprendizado profundo "Google Cat " que pode reconhecer gatos, com 74,8% de reconhecimento A taxa de precisão é 0,8% superior aos 74% do algoritmo vencedor da conhecida competição de reconhecimento de imagem ImageNet no ano anterior.
Mas os momentos de destaque do Google duraram apenas alguns meses. Em dezembro de 2012, foi lançado o vencedor do último ImageNet. O mestre do aprendizado profundo Hinton e seus discípulos trouxeram a rede neural convolucional AlexNet, que elevou a taxa de precisão de reconhecimento para 84%, iniciando assim a revolução da IA do próximo década. Google Cat foi enterrado na poeira da história.
Hinton com dois alunos, 2012
Não foi apenas o próprio modelo ImageNet que chocou a indústria. Essa rede neural, que requer 14 milhões de imagens e um total de 262 petaflops de operações de ponto flutuante, usou apenas quatro NVIDIA Geforce GTX 580 durante uma semana de treinamento. Para referência, o Google Cat usou 10 milhões de imagens, 16.000 CPUs e 1.000 computadores [1] 。
Há rumores de que o Google também participou secretamente da competição este ano, e o choque que recebeu se refletiu diretamente na próxima ação: o Google gastou $ 44 milhões para adquirir a equipe Hinton e imediatamente fez um pedido à Nvidia para um grande número de GPUs. para inteligência artificial Treinamento e, ao mesmo tempo, "bens de varredura" também são gigantes como Microsoft e Facebook.
** A Nvidia se tornou a maior vencedora e o preço de suas ações subiu no máximo 121 vezes nos 10 anos seguintes. Nasce um império. **
Mas sobre o império, duas nuvens escuras gradualmente se juntaram. O Google, que comprava produtos da Nvidia na época, fez uma estreia impressionante com o AlphaGo três anos depois e derrotou o campeão humano Ke Jie em 2017. Pessoas interessadas descobriram que o chip que controla o AlphaGo não é mais a GPU da Nvidia, mas o chip TPU autodesenvolvido do Google.
Três anos depois, um cenário semelhante se repetiu. A Tesla, antes considerada um cliente de referência por Huang Renxun, também se despediu da GPU Nvidia. Ela lançou primeiro o chip de veículo FSD com NPU como núcleo e, em seguida, retirou o chip D1 usado para construir clusters de treinamento de IA. Li perdeu dois de os clientes mais importantes da era da IA.
Até 2022, o ciclo global de TI entrará em uma fase descendente. As principais empresas de computação em nuvem cortarão os orçamentos de aquisição de GPU para data centers, um após o outro. A maré da mineração de blockchain esfriará gradualmente. Além disso, a proibição de chips dos EUA na China tornará é impossível vender A100/H100 para a China. Para placas gráficas de ponta, o estoque da Nvidia aumentou e o preço de suas ações caiu 2/3 de seu pico.
No final de 2022, nasceu o ChatGPT e as GPUs, como combustível para a "alquimia" em grande escala, foram saqueadas novamente. A Nvidia teve uma trégua, mas a terceira nuvem negra se seguiu: em 18 de abril de 2023, a famosa mídia de tecnologia The Information deu a notícia:* Microsoft, o iniciador desta onda de IA, está desenvolvendo secretamente seu próprio chip de IA* [2] 。
Este chip chamado Athena é fabricado pela TSMC e usa um processo avançado de 5 nm. O número da equipe de P&D da Microsoft é próximo a 300. Obviamente, o objetivo desse chip é substituir o caro A100/H100, fornecer um mecanismo de computação para OpenAI e, eventualmente, roubar o bolo da Nvidia por meio do serviço de nuvem Azure da Microsoft.
A Microsoft é atualmente a maior compradora do H100 da Nvidia, e havia até rumores de que iria "encerrar" a capacidade de produção anual do H100. O sinal de rompimento da Microsoft é, sem dúvida, um raio do nada. Você deve saber que, mesmo quando a Intel estava no auge, nenhum de seus clientes "se atreveu" a fazer seus próprios chips de CPU (exceto a Apple, que não os vende externamente). .
Embora a Nvidia atualmente monopolize 90% do mercado de poder de computação AI com GPU+NVlink+CUDA, o primeiro crack apareceu no ** império. **
01, a GPU que não nasceu para IA
Desde o início, as GPUs não foram feitas para IA.
Em outubro de 1999, a Nvidia lançou o GeForce 256, um chip de processamento gráfico baseado no processo de 220 nm da TSMC e integrando 23 milhões de transistores. A Nvidia extraiu as iniciais "GPU" da Unidade de Processamento Gráfico e nomeou GeForce 256 **"a primeira GPU do mundo".
Neste momento, a inteligência artificial ficou em silêncio por muitos anos, especialmente no campo das redes neurais profundas. Futuros vencedores do Prêmio Turing, como Geoffery Hinton e Yann LeCun, ainda estão sentados no banco acadêmico e nunca pensam em suas carreiras. , será completamente alterado por uma GPU originalmente desenvolvida para gamers.
Para quem nasceu a GPU? imagem. Mais precisamente, nasceu para libertar a CPU do trabalho árduo da exibição gráfica. O princípio básico da exibição da imagem é dividir a imagem de cada quadro em pixels individuais e, em seguida, executar vários processos de renderização, como processamento de vértice, processamento primitivo, rasterização, processamento de fragmento, operação de pixel etc., e finalmente exibir na tela.
Fonte do processo de processamento de pixels para imagens: compêndio gráfico
** Por que você diz que isso é um trabalho árduo? Faça um problema aritmético simples:**
Supondo que haja 300.000 pixels na tela, calculados a uma taxa de quadros de 60fps, 18 milhões de renderizações por segundo precisam ser concluídas, cada vez incluindo as cinco etapas acima, correspondentes a cinco instruções, ou seja, a CPU precisa complete 90 milhões de instruções por segundo para realizar uma apresentação de tela de um segundo.Como referência, a CPU de maior desempenho da Intel na época tinha apenas 60 milhões de cálculos por segundo.
Não é porque a CPU é fraca, mas porque é boa no escalonamento de threads, então mais espaço é dado para a unidade de controle e unidade de armazenamento, e a unidade de computação usada para cálculo ocupa apenas 20% do espaço. Pelo contrário, a GPU é mais de 80% do espaço é a unidade de computação, que traz recursos de computação super paralela e é mais adequada para o trabalho repetitivo, repetitivo e chato de exibição de imagem.
A estrutura interna da CPU e GPU, a parte verde é a unidade de computação
Alguns anos depois, alguns estudiosos da inteligência artificial perceberam que GPUs com essas características também são adequadas para treinamento em deep learning. Muitas arquiteturas clássicas de redes neurais profundas foram propostas já na segunda metade do século 20, mas devido à falta de hardware de computação para treiná-las, muitos estudos só podem ser "no papel", e o desenvolvimento estagnou por um longo tempo tempo.
Um tiro em outubro de 1999 trouxe as GPUs para a inteligência artificial. O processo de treinamento de aprendizado profundo é realizar operações hierárquicas em cada valor de entrada de acordo com as funções e parâmetros de cada camada da rede neural e, finalmente, obter um valor de saída, o que requer um grande número de operações de matriz, assim como renderização gráfica - isso passa a ser o que a GPU tem de melhor.
Uma arquitetura de rede neural profunda típica; fonte: em direção à ciência de dados
No entanto, a imagem mostra que, embora a quantidade de processamento de dados seja enorme, a maioria das etapas é fixa. Uma vez que a rede neural profunda é aplicada ao campo de tomada de decisão, ela envolverá situações complexas, como estruturas de ramificação e os parâmetros de cada camada precisa ser treinada com base em feedback positivo e negativo de dados massivos. Continue revisando. Essas diferenças criaram perigos ocultos para a adaptabilidade das GPUs à IA no futuro.
Kumar Chellapilla, atual gerente geral de IA/ML da Amazon, é o primeiro estudioso a comer caranguejos de GPU. Em 2006, ele usou a placa de vídeo GeForce 7800 da Nvidia para implementar a rede neural convolucional (CNN) pela primeira vez e descobriu que ela era 4 vezes mais rápida do que usar uma CPU. Esta é a primeira tentativa conhecida de usar GPUs para aprendizado profundo [3] 。
Kumar Chellapilla e Nvidia Geforce 7800
O trabalho de Kumar não atraiu muita atenção, principalmente devido à alta complexidade da programação baseada na GPU. Mas exatamente nessa época, a Nvidia lançou a plataforma CUDA em 2007, o que reduziu bastante a dificuldade dos desenvolvedores de usar a GPU para treinar redes neurais profundas, o que fez com que os crentes do aprendizado profundo tivessem mais esperança.
Então, em 2009, Wu Enda de Stanford e outros publicaram um artigo inovador [6] , a GPU reduz o tempo de treinamento de IA de semanas para horas em virtude de mais de 70 vezes o poder de computação da CPU. Este artigo aponta o caminho para a implementação de hardware de inteligência artificial. A GPU acelerou muito o processo de IA do papel para a realidade.
Andrew Ng (吴恩达)
Vale ressaltar que Wu Enda ingressou no Google Brain em 2011 e é um dos líderes do projeto Google Cat mencionado no início. A razão pela qual o Google Brain falhou em usar a GPU no final é desconhecida para quem está de fora, mas antes e depois de Wu Enda deixar o Google para ingressar no Baidu, houve rumores de que foi porque a atitude do Google em relação à GPU não era clara.
**Após a exploração de inúmeras pessoas, o bastão foi finalmente entregue ao mestre de aprendizado profundo Hinton, e o tempo já apontava para 2012. **
Em 2012, Hinton e dois alunos, Alex Krizhevsky e Ilya Sutskeverz, projetaram uma rede neural convolucional profunda, AlexNet, e planejaram participar da competição ImageNet este ano. Mas o problema é que pode levar vários meses para treinar o AlexNet com uma CPU, então eles voltaram sua atenção para a GPU.
Essa GPU, que é crucial na história do desenvolvimento do aprendizado profundo, é a famosa "placa gráfica de bomba nuclear" GTX 580. Como o principal produto da mais recente arquitetura Fermi da Nvidia, a GTX 580 é recheada com 512 núcleos CUDA (108 na geração anterior). ".
A é arsênico, B é mel. Comparado com a "suavidade" ao treinar redes neurais com GPUs, o problema de dissipação de calor não é nada para mencionar. A equipe Hinton concluiu com sucesso a programação com a plataforma CUDA da Nvidia.Com o suporte de duas placas gráficas GTX 580, o treinamento de 14 milhões de fotos levou apenas uma semana e o AlexNet venceu o campeonato com sucesso.
**Devido à influência da competição ImageNet e do próprio Hinton, todos os estudiosos da inteligência artificial perceberam a importância da GPU em um instante. **
Dois anos depois, o Google pegou o modelo GoogLeNet para participar do ImageNet e conquistou o campeonato com uma taxa de acerto de 93%, usando GPUs NVIDIA. Neste ano, o número de GPUs utilizadas por todas as equipes participantes subiu para 110. Fora das competições, a GPU se tornou um "consumo obrigatório" para aprendizado profundo, enviando a Huang Renxun um fluxo constante de pedidos.
Isso permitiu que a Nvidia se livrasse da sombra do fiasco no mercado móvel. Após o lançamento do iPhone em 2007, o bolo dos chips para smartphones se expandiu rapidamente. A Nvidia também tentou pegar um pedaço do bolo da Samsung, Qualcomm e MediaTek. O problema de dissipação de calor falhou. No fim das contas, foi o campo da inteligência artificial resgatado pela GPU, que deu à Nvidia uma segunda curva de crescimento.
Mas afinal, GPU não nasce para treinar redes neurais.Quanto mais rápido a inteligência artificial se desenvolver, mais esses problemas serão expostos.
Por exemplo, embora a GPU seja significativamente diferente da CPU, ambas seguem basicamente a estrutura de von Neumann, sendo o armazenamento e a operação separados. O gargalo de eficiência trazido por essa separação, afinal, as etapas de processamento da imagem são relativamente fixas, podendo ser resolvidas por operações mais paralelas, mas é muito fatal em uma rede neural com muitas estruturas ramificadas.
Toda vez que uma rede neural adiciona uma camada ou uma ramificação, ela precisa aumentar o acesso à memória para armazenar dados para retrocesso, e o tempo gasto com isso é inevitável. Especialmente na era dos modelos grandes, quanto maior o modelo, mais operações de acesso à memória precisam ser executadas - a energia consumida no acesso à memória é muitas vezes maior do que na computação.
Uma analogia simples é que a GPU é um homem musculoso (com muitas unidades de computação), mas para cada instrução recebida, ele precisa voltar e consultar o manual de instruções (memória). Finalmente, à medida que o tamanho e a complexidade do modelo aumentam , o homem O tempo para o trabalho real é muito limitado e, em vez disso, estou tão cansado de folhear os manuais que estou espumando pela boca.
Problemas de memória são apenas um dos muitos "desconfortos" das GPUs em aplicativos de rede neural profunda. A Nvidia estava ciente desses problemas desde o início e rapidamente começou a "modificar magicamente" a GPU para torná-la mais adequada para cenários de aplicativos de inteligência artificial; e os jogadores de IA que estão cientes do incêndio também estão entrando sorrateiramente, tentando usar os defeitos da GPU para abrir o canto do império de Huang Renxun.
** Uma batalha ofensiva e defensiva começa. **
02, a batalha sombria entre Google e Nvidia
Enfrentando a demanda esmagadora por poder de computação de IA e os defeitos congênitos da GPU, Huang Renxun ofereceu dois conjuntos de soluções para andar de mãos dadas.
**O primeiro conjunto é continuar a acumular poder de computação violentamente ao longo do caminho de "a velha fada do poder de computação tem poder mágico ilimitado". **Em uma época em que a demanda por poder de computação de IA dobra a cada 3,5 meses, o poder de computação é a cenoura pendurada diante dos olhos das empresas de inteligência artificial, fazendo com que repreendam Huang Renxun por suas excelentes habilidades com a espada enquanto a agarram como um cachorro Toda a capacidade da Nvidia.
**O segundo conjunto é resolver gradualmente a incompatibilidade entre cenários de GPU e inteligência artificial por meio de "inovação aprimorada". **Esses problemas incluem, entre outros, consumo de energia, paredes de memória, gargalos de largura de banda, cálculos de baixa precisão, conexões de alta velocidade, otimizações de modelos específicos... Desde 2012, a Nvidia acelerou repentinamente a velocidade das atualizações de arquitetura.
Depois que a Nvidia lançou o CUDA, ela usou uma arquitetura unificada para oferecer suporte aos dois principais cenários de gráficos e computação. A arquitetura de primeira geração estreou em 2007 e recebeu o nome de Tesla, não porque Huang Renxun quisesse mostrar seu favor a Musk, mas para homenagear o físico Nikola Tesla (a primeira geração foi a arquitetura Curie).
Desde então, cada geração da arquitetura de GPU NVIDIA recebeu nomes de cientistas famosos, conforme mostrado na figura abaixo. Em cada iteração da arquitetura, a Nvidia continua a acumular poder de computação, enquanto melhora sem "cortar músculos e ossos".
Por exemplo, a arquitetura Fermi de segunda geração em 2011 tinha a desvantagem de dissipação de calor, enquanto a arquitetura de terceira geração Kepler em 2012 mudou a ideia geral de design de alto desempenho para eficiência energética para melhorar a dissipação de calor; e para resolver os problemas acima mencionados Para o problema dos "tolos musculares", a arquitetura Maxwell de quarta geração em 2014 adicionou mais circuitos de controle lógico para facilitar o controle preciso.
Para se adaptar à cena da IA, a GPU "modificada magicamente" da Nvidia está se tornando cada vez mais parecida com uma CPU até certo ponto - assim como a excelente capacidade de agendamento da CPU às custas do poder de computação, a Nvidia precisa se conter em o empilhamento de núcleos de computação. No entanto, não importa como você altere a GPU com o peso da versatilidade, será difícil igualar o chip dedicado no cenário de IA.
** O primeiro a atacar a Nvidia foi o Google, que foi o primeiro a comprar GPUs em larga escala para computação de IA. **
Depois de mostrar seus músculos com o GoogLeNet em 2014, o Google não participou mais publicamente da competição de reconhecimento de máquinas e conspirou para desenvolver chips específicos de IA. Em 2016, o Google assumiu a liderança com o AlphaGo. Depois de vencer Li Shishi, lançou imediatamente seu chip AI autodesenvolvido TPU, que pegou a Nvidia de surpresa com uma nova arquitetura "nascida para AI".
TPU é a sigla para Tensor Processing Unit, e o nome chinês é "tensor processing unit". Se a "reforma mágica" da GPU da Nvidia é derrubar a parede leste para compensar a parede oeste, então a TPU deve reduzir fundamentalmente a demanda por armazenamento e conexão e transferir o espaço do chip para o cálculo ao máximo . Especificamente, os dois Grandes significam:
**A primeira é a tecnologia quantitativa. **Cálculos de computador modernos geralmente usam dados de alta precisão, que ocupam muita memória, mas, na verdade, a maioria dos cálculos de rede neural não requer precisão para alcançar cálculos de ponto flutuante de 32 ou 16 bits. A essência da quantização a tecnologia é basicamente combinar números de 32 bits/16 bits são aproximados a números inteiros de 8 bits, mantendo a precisão adequada e reduzindo os requisitos de armazenamento.
O segundo é o array sistólico, que é o array de multiplicação de matrizes, que é uma das diferenças mais críticas entre TPU e GPU. Simplificando, as operações da rede neural requerem um grande número de operações de matriz. A GPU só pode desmontar os cálculos da matriz em vários cálculos vetoriais passo a passo. Toda vez que um grupo é concluído, ele precisa acessar a memória e salvar os resultados de essa camada até que todos os cálculos vetoriais sejam concluídos. , e então combine os resultados de cada camada para obter o valor de saída.
Na TPU, milhares de unidades de computação são conectadas diretamente para formar uma matriz de multiplicação de matrizes. Como núcleo de computação, cálculos de matrizes podem ser executados diretamente. Exceto para carregar dados e funções no início, não há necessidade de acessar unidades de armazenamento, que reduz muito o acesso. A frequência acelera muito a velocidade de cálculo do TPU, e o consumo de energia e a ocupação do espaço físico também são bastante reduzidos.
Comparação de tempos de acesso de CPU, GPU, memória TPU (memória)
A TPU do Google é muito rápida e levou apenas 15 meses desde o projeto, verificação, produção em massa até a implantação final em seu próprio data center. Após o teste, o desempenho e o consumo de energia da TPU em CNN, LSTM, MLP e outros cenários de IA superaram em muito a GPU da Nvidia no mesmo período. **Toda a pressão foi dada à Nvidia de uma só vez. **
Ser apunhalado pelas costas por um grande cliente é desconfortável, mas a Nvidia não vai resistir e ser derrotada, e um cabo de guerra começou.
Cinco meses após o Google lançar o TPU, a Nvidia também apresentou a arquitetura Pascal do processo de 16 nm. Por um lado, a nova arquitetura apresenta a famosa tecnologia de interconexão bidirecional de alta velocidade NVLink, que melhora muito a largura de banda da conexão; por outro lado, imita a tecnologia de quantização do TPU e melhora a eficiência computacional da rede neural reduzindo a precisão dos dados.
Em 2017, a Nvidia lançou o Volta, a primeira arquitetura projetada especificamente para aprendizado profundo, que introduziu pela primeira vez o TensorCore, que é usado especialmente para operações de matriz - embora o array de multiplicação 4 × 4 seja o mesmo que o array de pulso TPU 256 × 256 A proporção é um pouco pobre, mas também é um compromisso feito com base na manutenção da flexibilidade e versatilidade.
Operação de matriz 4x4 implementada pelo TensorCore na Nvidia V100
Os executivos da NVIDIA declararam aos clientes: ** "O Volta não é uma atualização do Pascal, mas uma arquitetura totalmente nova."**
O Google também corre contra o tempo. Depois de 2016, o TPU foi atualizado por 3 gerações em cinco anos. Lançou o TPUv2 em 2017, o TPUv3 em 2018 e o TPUv4 em 2021, e colocou os dados na face da Nvidia. [4] : **TPU v4 é 1,2-1,7 vezes mais rápido que o A100 da Nvidia, enquanto reduz o consumo de energia em 1,3-1,9 vezes. **
O Google não vende chips TPU para o mundo exterior e, ao mesmo tempo, continua comprando GPUs da Nvidia em grandes quantidades, o que faz com que a competição de chips AI entre os dois permaneça na "guerra fria" e não na "concorrência aberta". Mas, afinal, o Google implanta o TPU em seu próprio sistema de serviço em nuvem para fornecer serviços de poder de computação de IA para o mundo exterior, o que sem dúvida reduz o mercado potencial da Nvidia.
Sundar Picha, CEO do Google, demonstra TPU v4
Enquanto os dois estão "lutando no escuro", o progresso no campo da inteligência artificial também avança rapidamente. Em 2017, o Google propôs o revolucionário modelo Transformer e a OpenAI desenvolveu o GPT-1 baseado no Transformer. AlexNet em 2012. .
Depois de perceber a nova tendência, a Nvidia lançou a arquitetura Hopper em 2022, introduzindo o mecanismo de aceleração Transformer no nível do hardware pela primeira vez, alegando que pode aumentar o tempo de treinamento do modelo de linguagem grande baseado no Transformer em 9 vezes. Com base na arquitetura Hopper, a Nvidia lançou a "GPU mais poderosa da superfície" - H100.
O H100 é o "monstro de ponto" definitivo da Nvidia. Por um lado, ele apresenta várias tecnologias de otimização de IA, como quantização, cálculo de matrizes (Tensor Core 4.0) e mecanismo de aceleração Transformer; por outro lado, está repleto dos pontos fortes tradicionais da Nvidia, como 7296 CUDA Core, 80 GB de memória HBM2 e tecnologia de conexão NVLink 4.0 de até 900 GB/s.
Segurando o H100 nas mãos, a Nvidia deu um suspiro de alívio temporariamente: não há chip produzido em massa no mercado que seja melhor que o H100.
A gangorra secreta do Google e da Nvidia também é uma conquista mútua: A Nvidia importou muitas tecnologias inovadoras do Google, e a pesquisa de ponta do Google sobre inteligência artificial também se beneficiou totalmente da inovação da GPU da Nvidia. A força é reduzido a um nível que pode ser usado por um grande modelo de linguagem "na ponta dos pés". Aqueles que estão no centro das atenções, como OpenAI, também estão nos ombros desses dois.
Mas os sentimentos pertencem aos sentimentos e os negócios pertencem aos negócios. A batalha ofensiva e defensiva em torno da GPU deixou a indústria mais certa de uma coisa: **GPU não é a solução ideal para IA, e ASICs customizados têm a possibilidade de quebrar o monopólio da Nvidia. **As rachaduras foram abertas, e o Google não será o único seguindo o gosto.
**Especialmente o poder de computação tornou-se a demanda mais certa na era AGI, e todo mundo quer sentar na mesma mesa com a NVIDIA ao comer. **
03, uma rachadura que está se expandindo
Além da OpenAI, existem duas empresas prontas para uso nesta rodada de boom da IA. Uma é a empresa de desenho de IA Midjourney, cuja capacidade de controlar vários estilos de pintura assusta inúmeros artistas baseados em carbono; a outra é Authropic, cujo fundador é da OpenAI. O robô de diálogo Claude jogava para frente e para trás com o ChatGPT.
**Mas nenhuma dessas duas empresas comprou GPUs Nvidia para construir supercomputação, mas usou os serviços de computação do Google. **
Para atender à explosão do poder de computação da IA, o Google construiu um conjunto de supercomputadores (TPU v4 Pod) com 4.096 TPUs. Os chips são interconectados com interruptores de circuito óptico (OCS) autodesenvolvidos. Modelos de linguagem grande, como MUM e PaLM, podem também fornecem serviços baratos e de alta qualidade para startups de IA.
Supercomputação Google TPU v4 Pod
Há também Tesla que faz supercalculadoras sozinho. Depois de lançar o chip FSD montado em veículo, a Tesla demonstrou ao mundo exterior o supercomputador Dojo ExaPOD construído com 3.000 de seus próprios chips D1 em agosto de 2021. Entre eles, o chip D1 é fabricado pela TSMC, usando tecnologia de 7nm, e 3.000 chips D1 fazem diretamente do Dojo o quinto computador com maior poder de computação do mundo.
**No entanto, a combinação dos dois não pode ser comparada ao impacto causado pelo chip Athena desenvolvido pela própria Microsoft. **
A Microsoft é um dos maiores clientes da Nvidia. Seu próprio serviço de nuvem Azure comprou pelo menos dezenas de milhares de GPUs de ponta A100 e H100. SwiftKey e outros produtos que usam IA.
Após um cálculo cuidadoso, o "imposto da Nvidia" que a Microsoft tem que pagar é um valor astronômico, e os chips autodesenvolvidos são quase inevitáveis. Assim como Ali calculou a demanda futura do Taobao Tmall por computação em nuvem, bancos de dados e armazenamento, e descobriu que era uma figura astronômica, então começou a apoiar decisivamente o Alibaba Cloud e lançou uma vigorosa campanha "de-IOE" internamente.
** A redução de custos é um aspecto e a integração vertical para criar diferenciação é outro aspecto. **Na era dos telefones celulares, a CPU (AP), a memória e a tela dos telefones celulares Samsung são produzidas e vendidas pela própria Samsung, fazendo grandes contribuições para a hegemonia global do Android da Samsung. A criação de núcleos do Google e da Microsoft também realiza otimização em nível de chip para seus próprios serviços em nuvem para criar diferenças.
Portanto, ao contrário da Apple e da Samsung, que não vendem chips para o mundo exterior, embora os chips de IA do Google e da Microsoft não sejam vendidos para o mundo exterior, eles digerirão alguns dos clientes em potencial da Nvidia por meio de “serviços de nuvem de computação de IA”. e Authropic são exemplos. Há mais empresas pequenas (especialmente na camada de aplicação de IA) escolhendo serviços em nuvem.
**A concentração do mercado global de computação em nuvem é muito alta. Os cinco principais fabricantes (Amazon AWS, Microsoft Azure, Google Cloud, Alibaba Cloud e IBM) respondem por mais de 60% e todos estão fabricando seus próprios chips de IA. Entre eles, o Google está progredindo mais rapidamente, a IBM tem as reservas mais fortes, a Microsoft tem o maior impacto, a Amazon tem o melhor sigilo e o Ali tem mais dificuldades. **
Os principais fabricantes nacionais desenvolvem seus próprios chips, e o fim do Oppo Zheku lançará uma sombra sobre todos os jogadores que entrarem em campo. No entanto, grandes empresas estrangeiras fazem autopesquisa e as cadeias de fornecimento de talentos e tecnologia podem ser construídas com fundos. Por exemplo, quando a Tesla se envolveu no FSD, recrutou o deus do Vale do Silício, Jim Keller, e o Google desenvolveu o TPU e convidou diretamente Turing. Vencedor do prêmio, inventor da arquitetura RISC Professor David Patterson.
Além dos grandes fabricantes, algumas pequenas e médias empresas também estão tentando tirar o bolo da Nvidia, como a Graphcore, que já teve uma avaliação de 2,8 bilhões de dólares, e o cambriano doméstico também pertence a essa categoria. A tabela a seguir lista as empresas iniciantes de design de chips de IA mais conhecidas do mundo.
A dificuldade para as start-ups de chips de IA é que, sem o investimento contínuo de grandes empresas com fortes recursos financeiros, elas não podem produzir e vender a si mesmas como o Google. A menos que a rota técnica seja única ou as vantagens sejam particularmente fortes, basicamente não há chance de ganhar ao lutar com a Nvidia.O custo e as vantagens ecológicas desta última quase eliminam todas as dúvidas dos clientes.
**O impacto da inicialização na Nvidia é limitado e as preocupações ocultas de Huang Renxun ainda são os grandes clientes que são desonestos. **
Claro, os principais fabricantes ainda são inseparáveis da Nvidia. Por exemplo, mesmo que o TPU do Google tenha sido atualizado para a 4ª geração, ele ainda precisa comprar GPUs em grandes quantidades para fornecer poder de computação em conjunto com o TPU; Opte por comprar 10.000 GPUs da NVIDIA.
No entanto, Huang Renxun já experimentou a amizade plástica de grandes fabricantes em Musk. Em 2018, Musk anunciou publicamente que desenvolveria seu próprio chip de carro (o DRIVE PX da Nvidia era usado na época) Huang Renxun foi questionado por analistas no local em uma teleconferência e não conseguiu sair do palco por um enquanto. Posteriormente, Musk emitiu um "esclarecimento", mas um ano depois Tesla ainda deixou a Nvidia sem olhar para trás [5] 。
As grandes fábricas nunca mostraram misericórdia em economizar custos. Embora os chips da Intel sejam vendidos para o B-end na era do PC, os consumidores têm uma forte escolha de autonomia e os fabricantes precisam anunciar "Intel Inside"; mas na era da nuvem de poder de computação, os gigantes podem bloquear todas as informações de hardware subjacentes e eles também comprarão no futuro.Com poder de computação de 100TFlops, os consumidores podem dizer qual parte vem da TPU e qual parte vem da GPU?
Portanto, a Nvidia finalmente deve enfrentar a questão: **GPU realmente não nasceu para IA, mas a GPU será a solução ideal para IA? **
Nos últimos 17 anos, Huang Renxun separou a GPU de um único jogo e cena de processamento de imagem, tornando-a uma ferramenta de poder de computação de propósito geral. Novos cenários continuam a "modificar magicamente" a GPU, tentando encontrar um equilíbrio entre "generalidade " e "especificidade".
Nas últimas duas décadas, a Nvidia introduziu inúmeras novas tecnologias que mudaram a indústria: plataforma CUDA, TensorCore, RT Core (ray tracing), NVLink, plataforma cuLitho (litografia computacional), precisão mista, Omniverse, motor Transformer ... Estes As tecnologias ajudaram a Nvidia de uma empresa de chips de segundo nível a um pulso Nanbo no valor de mercado de toda a indústria, o que não é inspirador.
Mas uma geração deve ter uma arquitetura de computação de uma era. O desenvolvimento da inteligência artificial está avançando rapidamente e os avanços tecnológicos são medidos em horas. Se você deseja que a IA penetre na vida humana tanto quanto fez quando os PCs/smartphones se tornaram populares, então poder de computação Os custos podem precisar cair em 99%, e as GPUs podem não ser a única resposta.
**A história nos diz que não importa o quão próspero seja um império, ele deve ter cuidado com essa rachadura imperceptível. **
Referências
[1] Classificação ImageNet com Redes Neurais Convolucionais Profundas, Hinton
[2] Microsoft prepara chip de IA à medida que os custos de aprendizado de máquina aumentam, as informações
[3] Redes neurais convolucionais de alto desempenho para processamento de documentos
[4] O Cloud TPU v4 do Google fornece ML em escala exaFLOPS com eficiência líder do setor
[5] Ambições de IA da Tesla, Tokawa Research Institute
[6] Aprendizado profundo não supervisionado em larga escala usando processadores gráficos
Ver original
O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.
Uma rachadura no império da Nvidia
Fonte: Instituto do Silício
Autor: He Luheng/Boss Dai
Em 2012, dois grandes eventos ocorreram no círculo de IA. Em ordem cronológica, o primeiro foi o lançamento do Google Brain, uma equipe de longa data do Google, como seu "trabalho de estreia" - uma rede de aprendizado profundo "Google Cat " que pode reconhecer gatos, com 74,8% de reconhecimento A taxa de precisão é 0,8% superior aos 74% do algoritmo vencedor da conhecida competição de reconhecimento de imagem ImageNet no ano anterior.
Mas os momentos de destaque do Google duraram apenas alguns meses. Em dezembro de 2012, foi lançado o vencedor do último ImageNet. O mestre do aprendizado profundo Hinton e seus discípulos trouxeram a rede neural convolucional AlexNet, que elevou a taxa de precisão de reconhecimento para 84%, iniciando assim a revolução da IA do próximo década. Google Cat foi enterrado na poeira da história.
Não foi apenas o próprio modelo ImageNet que chocou a indústria. Essa rede neural, que requer 14 milhões de imagens e um total de 262 petaflops de operações de ponto flutuante, usou apenas quatro NVIDIA Geforce GTX 580 durante uma semana de treinamento. Para referência, o Google Cat usou 10 milhões de imagens, 16.000 CPUs e 1.000 computadores [1] 。
Há rumores de que o Google também participou secretamente da competição este ano, e o choque que recebeu se refletiu diretamente na próxima ação: o Google gastou $ 44 milhões para adquirir a equipe Hinton e imediatamente fez um pedido à Nvidia para um grande número de GPUs. para inteligência artificial Treinamento e, ao mesmo tempo, "bens de varredura" também são gigantes como Microsoft e Facebook.
** A Nvidia se tornou a maior vencedora e o preço de suas ações subiu no máximo 121 vezes nos 10 anos seguintes. Nasce um império. **
Mas sobre o império, duas nuvens escuras gradualmente se juntaram. O Google, que comprava produtos da Nvidia na época, fez uma estreia impressionante com o AlphaGo três anos depois e derrotou o campeão humano Ke Jie em 2017. Pessoas interessadas descobriram que o chip que controla o AlphaGo não é mais a GPU da Nvidia, mas o chip TPU autodesenvolvido do Google.
Três anos depois, um cenário semelhante se repetiu. A Tesla, antes considerada um cliente de referência por Huang Renxun, também se despediu da GPU Nvidia. Ela lançou primeiro o chip de veículo FSD com NPU como núcleo e, em seguida, retirou o chip D1 usado para construir clusters de treinamento de IA. Li perdeu dois de os clientes mais importantes da era da IA.
Até 2022, o ciclo global de TI entrará em uma fase descendente. As principais empresas de computação em nuvem cortarão os orçamentos de aquisição de GPU para data centers, um após o outro. A maré da mineração de blockchain esfriará gradualmente. Além disso, a proibição de chips dos EUA na China tornará é impossível vender A100/H100 para a China. Para placas gráficas de ponta, o estoque da Nvidia aumentou e o preço de suas ações caiu 2/3 de seu pico.
No final de 2022, nasceu o ChatGPT e as GPUs, como combustível para a "alquimia" em grande escala, foram saqueadas novamente. A Nvidia teve uma trégua, mas a terceira nuvem negra se seguiu: em 18 de abril de 2023, a famosa mídia de tecnologia The Information deu a notícia:* Microsoft, o iniciador desta onda de IA, está desenvolvendo secretamente seu próprio chip de IA* [2] 。
Este chip chamado Athena é fabricado pela TSMC e usa um processo avançado de 5 nm. O número da equipe de P&D da Microsoft é próximo a 300. Obviamente, o objetivo desse chip é substituir o caro A100/H100, fornecer um mecanismo de computação para OpenAI e, eventualmente, roubar o bolo da Nvidia por meio do serviço de nuvem Azure da Microsoft.
A Microsoft é atualmente a maior compradora do H100 da Nvidia, e havia até rumores de que iria "encerrar" a capacidade de produção anual do H100. O sinal de rompimento da Microsoft é, sem dúvida, um raio do nada. Você deve saber que, mesmo quando a Intel estava no auge, nenhum de seus clientes "se atreveu" a fazer seus próprios chips de CPU (exceto a Apple, que não os vende externamente). .
Embora a Nvidia atualmente monopolize 90% do mercado de poder de computação AI com GPU+NVlink+CUDA, o primeiro crack apareceu no ** império. **
01, a GPU que não nasceu para IA
Desde o início, as GPUs não foram feitas para IA.
Em outubro de 1999, a Nvidia lançou o GeForce 256, um chip de processamento gráfico baseado no processo de 220 nm da TSMC e integrando 23 milhões de transistores. A Nvidia extraiu as iniciais "GPU" da Unidade de Processamento Gráfico e nomeou GeForce 256 **"a primeira GPU do mundo".
Neste momento, a inteligência artificial ficou em silêncio por muitos anos, especialmente no campo das redes neurais profundas. Futuros vencedores do Prêmio Turing, como Geoffery Hinton e Yann LeCun, ainda estão sentados no banco acadêmico e nunca pensam em suas carreiras. , será completamente alterado por uma GPU originalmente desenvolvida para gamers.
Para quem nasceu a GPU? imagem. Mais precisamente, nasceu para libertar a CPU do trabalho árduo da exibição gráfica. O princípio básico da exibição da imagem é dividir a imagem de cada quadro em pixels individuais e, em seguida, executar vários processos de renderização, como processamento de vértice, processamento primitivo, rasterização, processamento de fragmento, operação de pixel etc., e finalmente exibir na tela.
** Por que você diz que isso é um trabalho árduo? Faça um problema aritmético simples:**
Supondo que haja 300.000 pixels na tela, calculados a uma taxa de quadros de 60fps, 18 milhões de renderizações por segundo precisam ser concluídas, cada vez incluindo as cinco etapas acima, correspondentes a cinco instruções, ou seja, a CPU precisa complete 90 milhões de instruções por segundo para realizar uma apresentação de tela de um segundo.Como referência, a CPU de maior desempenho da Intel na época tinha apenas 60 milhões de cálculos por segundo.
Não é porque a CPU é fraca, mas porque é boa no escalonamento de threads, então mais espaço é dado para a unidade de controle e unidade de armazenamento, e a unidade de computação usada para cálculo ocupa apenas 20% do espaço. Pelo contrário, a GPU é mais de 80% do espaço é a unidade de computação, que traz recursos de computação super paralela e é mais adequada para o trabalho repetitivo, repetitivo e chato de exibição de imagem.
Alguns anos depois, alguns estudiosos da inteligência artificial perceberam que GPUs com essas características também são adequadas para treinamento em deep learning. Muitas arquiteturas clássicas de redes neurais profundas foram propostas já na segunda metade do século 20, mas devido à falta de hardware de computação para treiná-las, muitos estudos só podem ser "no papel", e o desenvolvimento estagnou por um longo tempo tempo.
Um tiro em outubro de 1999 trouxe as GPUs para a inteligência artificial. O processo de treinamento de aprendizado profundo é realizar operações hierárquicas em cada valor de entrada de acordo com as funções e parâmetros de cada camada da rede neural e, finalmente, obter um valor de saída, o que requer um grande número de operações de matriz, assim como renderização gráfica - isso passa a ser o que a GPU tem de melhor.
No entanto, a imagem mostra que, embora a quantidade de processamento de dados seja enorme, a maioria das etapas é fixa. Uma vez que a rede neural profunda é aplicada ao campo de tomada de decisão, ela envolverá situações complexas, como estruturas de ramificação e os parâmetros de cada camada precisa ser treinada com base em feedback positivo e negativo de dados massivos. Continue revisando. Essas diferenças criaram perigos ocultos para a adaptabilidade das GPUs à IA no futuro.
Kumar Chellapilla, atual gerente geral de IA/ML da Amazon, é o primeiro estudioso a comer caranguejos de GPU. Em 2006, ele usou a placa de vídeo GeForce 7800 da Nvidia para implementar a rede neural convolucional (CNN) pela primeira vez e descobriu que ela era 4 vezes mais rápida do que usar uma CPU. Esta é a primeira tentativa conhecida de usar GPUs para aprendizado profundo [3] 。
O trabalho de Kumar não atraiu muita atenção, principalmente devido à alta complexidade da programação baseada na GPU. Mas exatamente nessa época, a Nvidia lançou a plataforma CUDA em 2007, o que reduziu bastante a dificuldade dos desenvolvedores de usar a GPU para treinar redes neurais profundas, o que fez com que os crentes do aprendizado profundo tivessem mais esperança.
Então, em 2009, Wu Enda de Stanford e outros publicaram um artigo inovador [6] , a GPU reduz o tempo de treinamento de IA de semanas para horas em virtude de mais de 70 vezes o poder de computação da CPU. Este artigo aponta o caminho para a implementação de hardware de inteligência artificial. A GPU acelerou muito o processo de IA do papel para a realidade.
Vale ressaltar que Wu Enda ingressou no Google Brain em 2011 e é um dos líderes do projeto Google Cat mencionado no início. A razão pela qual o Google Brain falhou em usar a GPU no final é desconhecida para quem está de fora, mas antes e depois de Wu Enda deixar o Google para ingressar no Baidu, houve rumores de que foi porque a atitude do Google em relação à GPU não era clara.
**Após a exploração de inúmeras pessoas, o bastão foi finalmente entregue ao mestre de aprendizado profundo Hinton, e o tempo já apontava para 2012. **
Em 2012, Hinton e dois alunos, Alex Krizhevsky e Ilya Sutskeverz, projetaram uma rede neural convolucional profunda, AlexNet, e planejaram participar da competição ImageNet este ano. Mas o problema é que pode levar vários meses para treinar o AlexNet com uma CPU, então eles voltaram sua atenção para a GPU.
Essa GPU, que é crucial na história do desenvolvimento do aprendizado profundo, é a famosa "placa gráfica de bomba nuclear" GTX 580. Como o principal produto da mais recente arquitetura Fermi da Nvidia, a GTX 580 é recheada com 512 núcleos CUDA (108 na geração anterior). ".
A é arsênico, B é mel. Comparado com a "suavidade" ao treinar redes neurais com GPUs, o problema de dissipação de calor não é nada para mencionar. A equipe Hinton concluiu com sucesso a programação com a plataforma CUDA da Nvidia.Com o suporte de duas placas gráficas GTX 580, o treinamento de 14 milhões de fotos levou apenas uma semana e o AlexNet venceu o campeonato com sucesso.
**Devido à influência da competição ImageNet e do próprio Hinton, todos os estudiosos da inteligência artificial perceberam a importância da GPU em um instante. **
Dois anos depois, o Google pegou o modelo GoogLeNet para participar do ImageNet e conquistou o campeonato com uma taxa de acerto de 93%, usando GPUs NVIDIA. Neste ano, o número de GPUs utilizadas por todas as equipes participantes subiu para 110. Fora das competições, a GPU se tornou um "consumo obrigatório" para aprendizado profundo, enviando a Huang Renxun um fluxo constante de pedidos.
Isso permitiu que a Nvidia se livrasse da sombra do fiasco no mercado móvel. Após o lançamento do iPhone em 2007, o bolo dos chips para smartphones se expandiu rapidamente. A Nvidia também tentou pegar um pedaço do bolo da Samsung, Qualcomm e MediaTek. O problema de dissipação de calor falhou. No fim das contas, foi o campo da inteligência artificial resgatado pela GPU, que deu à Nvidia uma segunda curva de crescimento.
Mas afinal, GPU não nasce para treinar redes neurais.Quanto mais rápido a inteligência artificial se desenvolver, mais esses problemas serão expostos.
Por exemplo, embora a GPU seja significativamente diferente da CPU, ambas seguem basicamente a estrutura de von Neumann, sendo o armazenamento e a operação separados. O gargalo de eficiência trazido por essa separação, afinal, as etapas de processamento da imagem são relativamente fixas, podendo ser resolvidas por operações mais paralelas, mas é muito fatal em uma rede neural com muitas estruturas ramificadas.
Toda vez que uma rede neural adiciona uma camada ou uma ramificação, ela precisa aumentar o acesso à memória para armazenar dados para retrocesso, e o tempo gasto com isso é inevitável. Especialmente na era dos modelos grandes, quanto maior o modelo, mais operações de acesso à memória precisam ser executadas - a energia consumida no acesso à memória é muitas vezes maior do que na computação.
Uma analogia simples é que a GPU é um homem musculoso (com muitas unidades de computação), mas para cada instrução recebida, ele precisa voltar e consultar o manual de instruções (memória). Finalmente, à medida que o tamanho e a complexidade do modelo aumentam , o homem O tempo para o trabalho real é muito limitado e, em vez disso, estou tão cansado de folhear os manuais que estou espumando pela boca.
Problemas de memória são apenas um dos muitos "desconfortos" das GPUs em aplicativos de rede neural profunda. A Nvidia estava ciente desses problemas desde o início e rapidamente começou a "modificar magicamente" a GPU para torná-la mais adequada para cenários de aplicativos de inteligência artificial; e os jogadores de IA que estão cientes do incêndio também estão entrando sorrateiramente, tentando usar os defeitos da GPU para abrir o canto do império de Huang Renxun.
** Uma batalha ofensiva e defensiva começa. **
02, a batalha sombria entre Google e Nvidia
Enfrentando a demanda esmagadora por poder de computação de IA e os defeitos congênitos da GPU, Huang Renxun ofereceu dois conjuntos de soluções para andar de mãos dadas.
**O primeiro conjunto é continuar a acumular poder de computação violentamente ao longo do caminho de "a velha fada do poder de computação tem poder mágico ilimitado". **Em uma época em que a demanda por poder de computação de IA dobra a cada 3,5 meses, o poder de computação é a cenoura pendurada diante dos olhos das empresas de inteligência artificial, fazendo com que repreendam Huang Renxun por suas excelentes habilidades com a espada enquanto a agarram como um cachorro Toda a capacidade da Nvidia.
**O segundo conjunto é resolver gradualmente a incompatibilidade entre cenários de GPU e inteligência artificial por meio de "inovação aprimorada". **Esses problemas incluem, entre outros, consumo de energia, paredes de memória, gargalos de largura de banda, cálculos de baixa precisão, conexões de alta velocidade, otimizações de modelos específicos... Desde 2012, a Nvidia acelerou repentinamente a velocidade das atualizações de arquitetura.
Depois que a Nvidia lançou o CUDA, ela usou uma arquitetura unificada para oferecer suporte aos dois principais cenários de gráficos e computação. A arquitetura de primeira geração estreou em 2007 e recebeu o nome de Tesla, não porque Huang Renxun quisesse mostrar seu favor a Musk, mas para homenagear o físico Nikola Tesla (a primeira geração foi a arquitetura Curie).
Desde então, cada geração da arquitetura de GPU NVIDIA recebeu nomes de cientistas famosos, conforme mostrado na figura abaixo. Em cada iteração da arquitetura, a Nvidia continua a acumular poder de computação, enquanto melhora sem "cortar músculos e ossos".
Para se adaptar à cena da IA, a GPU "modificada magicamente" da Nvidia está se tornando cada vez mais parecida com uma CPU até certo ponto - assim como a excelente capacidade de agendamento da CPU às custas do poder de computação, a Nvidia precisa se conter em o empilhamento de núcleos de computação. No entanto, não importa como você altere a GPU com o peso da versatilidade, será difícil igualar o chip dedicado no cenário de IA.
** O primeiro a atacar a Nvidia foi o Google, que foi o primeiro a comprar GPUs em larga escala para computação de IA. **
Depois de mostrar seus músculos com o GoogLeNet em 2014, o Google não participou mais publicamente da competição de reconhecimento de máquinas e conspirou para desenvolver chips específicos de IA. Em 2016, o Google assumiu a liderança com o AlphaGo. Depois de vencer Li Shishi, lançou imediatamente seu chip AI autodesenvolvido TPU, que pegou a Nvidia de surpresa com uma nova arquitetura "nascida para AI".
TPU é a sigla para Tensor Processing Unit, e o nome chinês é "tensor processing unit". Se a "reforma mágica" da GPU da Nvidia é derrubar a parede leste para compensar a parede oeste, então a TPU deve reduzir fundamentalmente a demanda por armazenamento e conexão e transferir o espaço do chip para o cálculo ao máximo . Especificamente, os dois Grandes significam:
**A primeira é a tecnologia quantitativa. **Cálculos de computador modernos geralmente usam dados de alta precisão, que ocupam muita memória, mas, na verdade, a maioria dos cálculos de rede neural não requer precisão para alcançar cálculos de ponto flutuante de 32 ou 16 bits. A essência da quantização a tecnologia é basicamente combinar números de 32 bits/16 bits são aproximados a números inteiros de 8 bits, mantendo a precisão adequada e reduzindo os requisitos de armazenamento.
O segundo é o array sistólico, que é o array de multiplicação de matrizes, que é uma das diferenças mais críticas entre TPU e GPU. Simplificando, as operações da rede neural requerem um grande número de operações de matriz. A GPU só pode desmontar os cálculos da matriz em vários cálculos vetoriais passo a passo. Toda vez que um grupo é concluído, ele precisa acessar a memória e salvar os resultados de essa camada até que todos os cálculos vetoriais sejam concluídos. , e então combine os resultados de cada camada para obter o valor de saída.
Na TPU, milhares de unidades de computação são conectadas diretamente para formar uma matriz de multiplicação de matrizes. Como núcleo de computação, cálculos de matrizes podem ser executados diretamente. Exceto para carregar dados e funções no início, não há necessidade de acessar unidades de armazenamento, que reduz muito o acesso. A frequência acelera muito a velocidade de cálculo do TPU, e o consumo de energia e a ocupação do espaço físico também são bastante reduzidos.
A TPU do Google é muito rápida e levou apenas 15 meses desde o projeto, verificação, produção em massa até a implantação final em seu próprio data center. Após o teste, o desempenho e o consumo de energia da TPU em CNN, LSTM, MLP e outros cenários de IA superaram em muito a GPU da Nvidia no mesmo período. **Toda a pressão foi dada à Nvidia de uma só vez. **
Ser apunhalado pelas costas por um grande cliente é desconfortável, mas a Nvidia não vai resistir e ser derrotada, e um cabo de guerra começou.
Cinco meses após o Google lançar o TPU, a Nvidia também apresentou a arquitetura Pascal do processo de 16 nm. Por um lado, a nova arquitetura apresenta a famosa tecnologia de interconexão bidirecional de alta velocidade NVLink, que melhora muito a largura de banda da conexão; por outro lado, imita a tecnologia de quantização do TPU e melhora a eficiência computacional da rede neural reduzindo a precisão dos dados.
Em 2017, a Nvidia lançou o Volta, a primeira arquitetura projetada especificamente para aprendizado profundo, que introduziu pela primeira vez o TensorCore, que é usado especialmente para operações de matriz - embora o array de multiplicação 4 × 4 seja o mesmo que o array de pulso TPU 256 × 256 A proporção é um pouco pobre, mas também é um compromisso feito com base na manutenção da flexibilidade e versatilidade.
Os executivos da NVIDIA declararam aos clientes: ** "O Volta não é uma atualização do Pascal, mas uma arquitetura totalmente nova."**
O Google também corre contra o tempo. Depois de 2016, o TPU foi atualizado por 3 gerações em cinco anos. Lançou o TPUv2 em 2017, o TPUv3 em 2018 e o TPUv4 em 2021, e colocou os dados na face da Nvidia. [4] : **TPU v4 é 1,2-1,7 vezes mais rápido que o A100 da Nvidia, enquanto reduz o consumo de energia em 1,3-1,9 vezes. **
O Google não vende chips TPU para o mundo exterior e, ao mesmo tempo, continua comprando GPUs da Nvidia em grandes quantidades, o que faz com que a competição de chips AI entre os dois permaneça na "guerra fria" e não na "concorrência aberta". Mas, afinal, o Google implanta o TPU em seu próprio sistema de serviço em nuvem para fornecer serviços de poder de computação de IA para o mundo exterior, o que sem dúvida reduz o mercado potencial da Nvidia.
Enquanto os dois estão "lutando no escuro", o progresso no campo da inteligência artificial também avança rapidamente. Em 2017, o Google propôs o revolucionário modelo Transformer e a OpenAI desenvolveu o GPT-1 baseado no Transformer. AlexNet em 2012. .
Depois de perceber a nova tendência, a Nvidia lançou a arquitetura Hopper em 2022, introduzindo o mecanismo de aceleração Transformer no nível do hardware pela primeira vez, alegando que pode aumentar o tempo de treinamento do modelo de linguagem grande baseado no Transformer em 9 vezes. Com base na arquitetura Hopper, a Nvidia lançou a "GPU mais poderosa da superfície" - H100.
O H100 é o "monstro de ponto" definitivo da Nvidia. Por um lado, ele apresenta várias tecnologias de otimização de IA, como quantização, cálculo de matrizes (Tensor Core 4.0) e mecanismo de aceleração Transformer; por outro lado, está repleto dos pontos fortes tradicionais da Nvidia, como 7296 CUDA Core, 80 GB de memória HBM2 e tecnologia de conexão NVLink 4.0 de até 900 GB/s.
Segurando o H100 nas mãos, a Nvidia deu um suspiro de alívio temporariamente: não há chip produzido em massa no mercado que seja melhor que o H100.
A gangorra secreta do Google e da Nvidia também é uma conquista mútua: A Nvidia importou muitas tecnologias inovadoras do Google, e a pesquisa de ponta do Google sobre inteligência artificial também se beneficiou totalmente da inovação da GPU da Nvidia. A força é reduzido a um nível que pode ser usado por um grande modelo de linguagem "na ponta dos pés". Aqueles que estão no centro das atenções, como OpenAI, também estão nos ombros desses dois.
Mas os sentimentos pertencem aos sentimentos e os negócios pertencem aos negócios. A batalha ofensiva e defensiva em torno da GPU deixou a indústria mais certa de uma coisa: **GPU não é a solução ideal para IA, e ASICs customizados têm a possibilidade de quebrar o monopólio da Nvidia. **As rachaduras foram abertas, e o Google não será o único seguindo o gosto.
**Especialmente o poder de computação tornou-se a demanda mais certa na era AGI, e todo mundo quer sentar na mesma mesa com a NVIDIA ao comer. **
03, uma rachadura que está se expandindo
Além da OpenAI, existem duas empresas prontas para uso nesta rodada de boom da IA. Uma é a empresa de desenho de IA Midjourney, cuja capacidade de controlar vários estilos de pintura assusta inúmeros artistas baseados em carbono; a outra é Authropic, cujo fundador é da OpenAI. O robô de diálogo Claude jogava para frente e para trás com o ChatGPT.
**Mas nenhuma dessas duas empresas comprou GPUs Nvidia para construir supercomputação, mas usou os serviços de computação do Google. **
Para atender à explosão do poder de computação da IA, o Google construiu um conjunto de supercomputadores (TPU v4 Pod) com 4.096 TPUs. Os chips são interconectados com interruptores de circuito óptico (OCS) autodesenvolvidos. Modelos de linguagem grande, como MUM e PaLM, podem também fornecem serviços baratos e de alta qualidade para startups de IA.
Há também Tesla que faz supercalculadoras sozinho. Depois de lançar o chip FSD montado em veículo, a Tesla demonstrou ao mundo exterior o supercomputador Dojo ExaPOD construído com 3.000 de seus próprios chips D1 em agosto de 2021. Entre eles, o chip D1 é fabricado pela TSMC, usando tecnologia de 7nm, e 3.000 chips D1 fazem diretamente do Dojo o quinto computador com maior poder de computação do mundo.
**No entanto, a combinação dos dois não pode ser comparada ao impacto causado pelo chip Athena desenvolvido pela própria Microsoft. **
A Microsoft é um dos maiores clientes da Nvidia. Seu próprio serviço de nuvem Azure comprou pelo menos dezenas de milhares de GPUs de ponta A100 e H100. SwiftKey e outros produtos que usam IA.
Após um cálculo cuidadoso, o "imposto da Nvidia" que a Microsoft tem que pagar é um valor astronômico, e os chips autodesenvolvidos são quase inevitáveis. Assim como Ali calculou a demanda futura do Taobao Tmall por computação em nuvem, bancos de dados e armazenamento, e descobriu que era uma figura astronômica, então começou a apoiar decisivamente o Alibaba Cloud e lançou uma vigorosa campanha "de-IOE" internamente.
** A redução de custos é um aspecto e a integração vertical para criar diferenciação é outro aspecto. **Na era dos telefones celulares, a CPU (AP), a memória e a tela dos telefones celulares Samsung são produzidas e vendidas pela própria Samsung, fazendo grandes contribuições para a hegemonia global do Android da Samsung. A criação de núcleos do Google e da Microsoft também realiza otimização em nível de chip para seus próprios serviços em nuvem para criar diferenças.
Portanto, ao contrário da Apple e da Samsung, que não vendem chips para o mundo exterior, embora os chips de IA do Google e da Microsoft não sejam vendidos para o mundo exterior, eles digerirão alguns dos clientes em potencial da Nvidia por meio de “serviços de nuvem de computação de IA”. e Authropic são exemplos. Há mais empresas pequenas (especialmente na camada de aplicação de IA) escolhendo serviços em nuvem.
**A concentração do mercado global de computação em nuvem é muito alta. Os cinco principais fabricantes (Amazon AWS, Microsoft Azure, Google Cloud, Alibaba Cloud e IBM) respondem por mais de 60% e todos estão fabricando seus próprios chips de IA. Entre eles, o Google está progredindo mais rapidamente, a IBM tem as reservas mais fortes, a Microsoft tem o maior impacto, a Amazon tem o melhor sigilo e o Ali tem mais dificuldades. **
Os principais fabricantes nacionais desenvolvem seus próprios chips, e o fim do Oppo Zheku lançará uma sombra sobre todos os jogadores que entrarem em campo. No entanto, grandes empresas estrangeiras fazem autopesquisa e as cadeias de fornecimento de talentos e tecnologia podem ser construídas com fundos. Por exemplo, quando a Tesla se envolveu no FSD, recrutou o deus do Vale do Silício, Jim Keller, e o Google desenvolveu o TPU e convidou diretamente Turing. Vencedor do prêmio, inventor da arquitetura RISC Professor David Patterson.
A dificuldade para as start-ups de chips de IA é que, sem o investimento contínuo de grandes empresas com fortes recursos financeiros, elas não podem produzir e vender a si mesmas como o Google. A menos que a rota técnica seja única ou as vantagens sejam particularmente fortes, basicamente não há chance de ganhar ao lutar com a Nvidia.O custo e as vantagens ecológicas desta última quase eliminam todas as dúvidas dos clientes.
**O impacto da inicialização na Nvidia é limitado e as preocupações ocultas de Huang Renxun ainda são os grandes clientes que são desonestos. **
Claro, os principais fabricantes ainda são inseparáveis da Nvidia. Por exemplo, mesmo que o TPU do Google tenha sido atualizado para a 4ª geração, ele ainda precisa comprar GPUs em grandes quantidades para fornecer poder de computação em conjunto com o TPU; Opte por comprar 10.000 GPUs da NVIDIA.
No entanto, Huang Renxun já experimentou a amizade plástica de grandes fabricantes em Musk. Em 2018, Musk anunciou publicamente que desenvolveria seu próprio chip de carro (o DRIVE PX da Nvidia era usado na época) Huang Renxun foi questionado por analistas no local em uma teleconferência e não conseguiu sair do palco por um enquanto. Posteriormente, Musk emitiu um "esclarecimento", mas um ano depois Tesla ainda deixou a Nvidia sem olhar para trás [5] 。
As grandes fábricas nunca mostraram misericórdia em economizar custos. Embora os chips da Intel sejam vendidos para o B-end na era do PC, os consumidores têm uma forte escolha de autonomia e os fabricantes precisam anunciar "Intel Inside"; mas na era da nuvem de poder de computação, os gigantes podem bloquear todas as informações de hardware subjacentes e eles também comprarão no futuro.Com poder de computação de 100TFlops, os consumidores podem dizer qual parte vem da TPU e qual parte vem da GPU?
Portanto, a Nvidia finalmente deve enfrentar a questão: **GPU realmente não nasceu para IA, mas a GPU será a solução ideal para IA? **
Nos últimos 17 anos, Huang Renxun separou a GPU de um único jogo e cena de processamento de imagem, tornando-a uma ferramenta de poder de computação de propósito geral. Novos cenários continuam a "modificar magicamente" a GPU, tentando encontrar um equilíbrio entre "generalidade " e "especificidade".
Nas últimas duas décadas, a Nvidia introduziu inúmeras novas tecnologias que mudaram a indústria: plataforma CUDA, TensorCore, RT Core (ray tracing), NVLink, plataforma cuLitho (litografia computacional), precisão mista, Omniverse, motor Transformer ... Estes As tecnologias ajudaram a Nvidia de uma empresa de chips de segundo nível a um pulso Nanbo no valor de mercado de toda a indústria, o que não é inspirador.
Mas uma geração deve ter uma arquitetura de computação de uma era. O desenvolvimento da inteligência artificial está avançando rapidamente e os avanços tecnológicos são medidos em horas. Se você deseja que a IA penetre na vida humana tanto quanto fez quando os PCs/smartphones se tornaram populares, então poder de computação Os custos podem precisar cair em 99%, e as GPUs podem não ser a única resposta.
**A história nos diz que não importa o quão próspero seja um império, ele deve ter cuidado com essa rachadura imperceptível. **
Referências
[1] Classificação ImageNet com Redes Neurais Convolucionais Profundas, Hinton
[2] Microsoft prepara chip de IA à medida que os custos de aprendizado de máquina aumentam, as informações
[3] Redes neurais convolucionais de alto desempenho para processamento de documentos
[4] O Cloud TPU v4 do Google fornece ML em escala exaFLOPS com eficiência líder do setor
[5] Ambições de IA da Tesla, Tokawa Research Institute
[6] Aprendizado profundo não supervisionado em larga escala usando processadores gráficos