Discurso completo de Jensen Huang na GTC: A era da inferência chegou, e a lagosta é o novo sistema operacional

SmartContractAuditor · 2026-03-17T02:41:47+00:00

Autor original: Bao YilongFonte original: Wall Street Journal (華爾街見聞)16 de março de 2026, a conferência GTC 2026 da NVIDIA foi oficialmente inaugurada, com o fundador e CEO da NVIDIA, Jensen Huang, proferindo o discurso principal.Nesta conferência considerada como a "peregrinação anual da indústria de IA", Jensen Huang expôs a transformação da NVIDIA de uma "empresa de chips" para uma "empresa de infraestrutura de IA e fábrica". Perante a questão mais preocupante do mercado sobre a continuidade do desempenho e espaço de crescimento, Jensen Huang detalhou a lógica comercial subjacente que impulsiona o crescimento futuro — a "economia da fábrica de tokens".Orientação de desempenho extremamente otimista, "demanda de pelo menos 1 trilião de dólares entre 2027 e 2027"-----------------------------Nos últimos dois anos, a procura global de computação de IA explodiu exponencialmente. À medida que os grandes modelos transitam de "perceção", "geração"

SmartContractAuditor

2026-03-17 02:41:47

Autor do artigo: Bao Yilong

Fonte original: Wall Street Journal

16 de março de 2026, a conferência GTC 2026 da Nvidia abriu oficialmente, com o fundador e CEO Huang Renxun realizando o discurso principal.

Nesta conferência, considerada uma “peregrinação anual da indústria de IA”, Huang explicou a transformação da Nvidia de uma “empresa de chips” para uma “empresa de infraestrutura e fábricas de IA”. Diante das principais preocupações do mercado sobre a sustentabilidade de desempenho e espaço de crescimento, Huang detalhou a lógica comercial subjacente que impulsiona o crescimento futuro — a “Economia das fábricas de tokens”.

Orientação de desempenho extremamente otimista, “demanda de pelo menos 1 trilhão de dólares até 2027”

Nos últimos dois anos, a demanda global por computação de IA explodiu exponencialmente. À medida que os grandes modelos evoluíram de “percepção” e “geração” para “raciocínio” e “ação (execução de tarefas)”, o consumo de poder de processamento aumentou drasticamente. Em relação ao limite de pedidos e receitas que o mercado está altamente atento, Huang apresentou expectativas extremamente fortes.

Durante seu discurso, Huang afirmou:

No ano passado, eu disse que víamos uma demanda de US$ 500 bilhões com alta confiança, cobrindo Blackwell e Rubin até 2026. Agora, neste exato momento, vejo uma demanda de pelo menos US$ 1 trilhão até 2027.

A previsão de Huang de um trilhão de dólares impulsionou temporariamente as ações da Nvidia a subir mais de 4,3%.

Além disso, ele complementou esse número:

Isso faz sentido? É exatamente isso que vou explicar a seguir. Na verdade, nossa oferta até mesmo não consegue atender à demanda. Tenho certeza de que a necessidade real de computação será muito maior do que isso.

Huang apontou que os sistemas atuais da Nvidia já provaram ser a infraestrutura de menor custo globalmente. Como a Nvidia consegue rodar quase todos os modelos de IA em todos os setores, essa versatilidade permite que o investimento de 1 trilhão de dólares dos clientes seja plenamente aproveitado e mantenha uma longa vida útil.

Atualmente, 60% dos negócios da Nvidia vêm dos cinco maiores provedores de nuvem de grande porte, enquanto os outros 40% estão amplamente distribuídos em nuvens soberanas, empresas, indústrias, robótica e computação de borda.

Economia das fábricas de tokens, o desempenho por watt decide o destino do negócio

Para explicar a razoabilidade dessa demanda de 1 trilhão de dólares, Huang apresentou uma nova mentalidade de negócios para CEOs globais. Ele destacou que, no futuro, os data centers não serão mais armazéns de arquivos, mas sim “fábricas” de tokens (unidades básicas geradas por IA).

Huang enfatizou:

Cada data center, cada fábrica, por definição, é limitado pela energia. Uma fábrica de 1 GW (gigawatt) nunca se tornará uma de 2 GW — isso é uma lei física e atômica. Com uma potência fixa, quem tiver maior throughput de tokens por watt terá o menor custo de produção.

Huang dividiu os serviços de IA do futuro em cinco níveis comerciais:

Nível gratuito (alto throughput, baixa velocidade)
Nível intermediário (~US$ 3 por milhão de tokens)
Nível avançado (~US$ 6 por milhão de tokens)
Nível de alta velocidade (~US$ 45 por milhão de tokens)
Nível ultrarrápido (~US$ 150 por milhão de tokens)

Ele apontou que, à medida que os modelos ficarem maiores e o contexto mais longo, a IA ficará mais inteligente, mas a taxa de geração de tokens diminuirá. Huang afirmou:

Neste fábrica de tokens, seu throughput e velocidade de geração de tokens se transformarão diretamente na sua receita exata no próximo ano.

Huang destacou que a arquitetura da Nvidia permite que os clientes atinjam throughput extremamente alto no nível gratuito, enquanto, no nível de inferência de maior valor, o desempenho pode ser aumentado em até 35 vezes.

Vera Rubin alcançou uma aceleração de 350 vezes em dois anos, enquanto a Groq preenche a lacuna de inferência ultrarrápida

Diante desses limites físicos, a Nvidia apresentou seu sistema de computação de IA mais complexo até hoje, Vera Rubin. Huang afirmou:

No passado, ao mencionar Hopper, eu levantava um chip, o que era adorável. Mas ao falar de Vera Rubin, todos pensam no sistema completo. Nesse sistema, totalmente refrigerado a líquido e eliminando cabos tradicionais, o rack que levava dois dias para ser instalado agora leva apenas duas horas.

Huang destacou que, por meio de um design extremo de hardware e software integrados, Vera Rubin criou uma revolução de dados dentro de um data center de 1 GW:

Em apenas dois anos, elevamos a taxa de geração de tokens de 22 milhões para 700 milhões por segundo, um crescimento de 350 vezes. A Lei de Moore, nesse mesmo período, só trouxe um aumento de cerca de 1,5 vezes.

Para resolver o gargalo de largura de banda sob condições de inferência ultrarrápida (como 1000 tokens/segundo), a Nvidia apresentou a solução final ao integrar a empresa adquirida Groq: inferência assimétrica e separada. Huang explicou:

Esses dois processadores têm características completamente diferentes. O chip Groq possui 500MB de SRAM, enquanto um chip Rubin tem 288GB de memória.

Huang apontou que, por meio do sistema Dynamo, a Nvidia delega a Vera Rubin a fase de “pré-preenchimento” (Pre-fill), que exige enorme capacidade de cálculo e memória de vídeo, enquanto a fase de “decodificação” (decoding), altamente sensível à latência, é feita pelo Groq. Huang também deu recomendações para a configuração de capacidade de computação empresarial:

Se seu trabalho for principalmente de alto throughput, use 100% Vera Rubin; se precisar gerar muitos tokens de alto valor, reserve cerca de 25% do data center para Groq.

Foi divulgado que o chip Groq LP30, fabricado pela Samsung, já está em produção em massa, com previsão de envio no terceiro trimestre, enquanto o primeiro rack Vera Rubin já opera na nuvem Azure da Microsoft.

Além disso, Huang apresentou a tecnologia de interconexão óptica, exibindo o primeiro switch de troca óptica empacotada em massa do mundo, Spectrum X, e acalmou o mercado quanto à disputa entre “retorno do cobre” e “entrada de fibra óptica”:

Precisamos de mais capacidade de cabos de cobre, mais chips ópticos e mais capacidade de CPO.

Agent: o fim do SaaS tradicional, “salário + tokens” torna-se padrão do Vale do Silício

Além das barreiras de hardware, Huang dedicou grande parte de sua fala à revolução do software de IA e do ecossistema, especialmente à explosão do Agent (agente inteligente).

Ele descreveu o projeto de código aberto OpenClaw como “o projeto de código aberto mais popular da história da humanidade”, afirmando que, em poucas semanas, superou as realizações do Linux em 30 anos. Huang declarou que, na essência, OpenClaw é o “sistema operacional” do computador de agentes.

Huang afirmou:

Cada empresa de SaaS se tornará uma empresa de AaaS (Agent-as-a-Service, agente como serviço). Sem dúvida, para garantir a implementação segura de agentes capazes de acessar dados sensíveis e executar códigos, a Nvidia lançou o design de referência empresarial NeMo Claw, que inclui um motor de estratégias e um roteador de privacidade.

Para os profissionais comuns, essa transformação também está próxima. Huang descreveu a nova forma de trabalho do futuro:

No futuro, cada engenheiro da nossa empresa terá um orçamento anual de tokens. Seu salário base pode ser de dezenas de milhares de dólares, e eu reservarei cerca de metade desse valor em tokens para eles, permitindo um aumento de 10x na produtividade. Quanto mais tokens você tiver na oferta de entrada, mais competitivo será seu pacote de contratação na Silicon Valley.

Ao final do discurso, Huang também “vazou” a arquitetura de próxima geração, Feynman, que permitirá a expansão conjunta de cobre e CPO pela primeira vez. Ainda mais, a Nvidia está desenvolvendo e implantando um computador de data center no espaço, Vera Rubin Space-1, abrindo completamente a imaginação de uma extensão do poder de IA além da Terra.

Transcrição completa do discurso de Huang Renxun na GTC 2026, com tradução integral (auxiliada por ferramentas de IA):

Moderador: Bem-vindo ao palco, Huang Renxun, fundador e CEO da Nvidia.

Huang Renxun, fundador e CEO:

Bem-vindos à GTC. Gostaria de lembrar a todos que esta é uma conferência tecnológica. É muito gratificante ver tantas pessoas na fila desde cedo, e ver todos vocês aqui presentes.

Na GTC, focaremos em três temas principais: tecnologia, plataforma e ecossistema. A Nvidia atualmente possui três plataformas principais: a plataforma CUDA-X, a plataforma de sistemas e nossa mais recente plataforma de fábricas de IA.

Antes de começar oficialmente, quero agradecer aos nossos anfitriões do pré-evento — Sarah Guo, da Conviction, Alfred Lin, da Sequoia Capital (nosso primeiro investidor de risco na Nvidia), e Gavin Baker, nosso primeiro grande investidor institucional. Essas três pessoas têm insights profundos sobre tecnologia e uma influência enorme no ecossistema tecnológico. Claro, também agradeço a todos os convidados especiais que convidei pessoalmente para estar aqui hoje. Obrigado à equipe de estrelas.

Também quero agradecer às empresas presentes hoje. A Nvidia é uma empresa de plataformas, com tecnologia, plataformas e um ecossistema rico. Os representantes das empresas aqui presentes representam quase todos os participantes do setor de US$ 100 trilhões. São 450 empresas apoiando este evento, meu sincero agradecimento.

Este evento conta com 1.000 fóruns técnicos e 2.000 palestrantes, cobrindo cada nível da arquitetura de “cinco camadas” de IA — desde infraestrutura básica como terrenos, energia e data centers, até chips, plataformas, modelos e, finalmente, aplicações que impulsionam toda a indústria.

CUDA: vinte anos de acumulação tecnológica

Tudo começa aqui. Este ano marca o 20º aniversário do CUDA.

Ao longo de vinte anos, dedicamos-nos ao desenvolvimento dessa arquitetura. CUDA é uma invenção revolucionária — a tecnologia SIMT (Single Instruction, Multiple Threads) permite que desenvolvedores escrevam código escalar e o expandam para aplicações multithread, com uma complexidade de programação muito menor do que as arquiteturas SIMD anteriores. Recentemente, adicionamos a funcionalidade Tiles, facilitando a programação de núcleos tensor (Tensor Core) e diversas operações matemáticas essenciais à IA moderna. Hoje, o CUDA possui milhares de ferramentas, compiladores, frameworks e bibliotecas, com centenas de milhares de projetos de código aberto, profundamente integrados a todos os ecossistemas tecnológicos.

Este gráfico revela toda a lógica estratégica da Nvidia — sempre o apresentei desde o início. O elemento mais difícil e central de realizar é a “capacidade instalada”. Após vinte anos, acumulamos centenas de milhões de GPUs e sistemas de computação rodando CUDA ao redor do mundo.

Nossas GPUs cobrem todas as plataformas de nuvem, atendendo quase todos os fabricantes de computadores e setores. Essa vasta capacidade instalada é a força motriz que acelera esse ciclo: atrai desenvolvedores, que criam novos algoritmos e fazem avanços, gerando novos mercados, formando novos ecossistemas e atraindo mais empresas, ampliando ainda mais a capacidade instalada — esse ciclo está em rápida aceleração.

O volume de downloads do repositório da Nvidia cresce a uma velocidade impressionante, com escala enorme e crescimento contínuo. Esse ciclo permite que nossa plataforma de computação suporte aplicações massivas e novas inovações constantes.

Mais importante, ela confere uma vida útil extremamente longa a essas infraestruturas. A razão é clara: aplicações rodando no CUDA da Nvidia são extremamente diversas, abrangendo todas as fases do ciclo de vida da IA, plataformas de processamento de dados e solucionadores de princípios científicos. Assim, uma vez instalada uma GPU Nvidia, seu valor de uso real é altíssimo. É por isso que, mesmo há seis anos, a GPU baseada na arquitetura Ampere tinha seu preço na nuvem até mesmo em alta.

Tudo isso se sustenta pelo fato de a capacidade instalada ser enorme, o ciclo de aceleração ser forte e o ecossistema de desenvolvedores ser amplo. Quando esses fatores atuam juntos, e com a contínua atualização de software, os custos de computação caem constantemente. Acelerando o processamento, melhoramos o desempenho das aplicações, e ao longo do tempo, ao manter e iterar o software, os usuários desfrutam de melhorias de desempenho iniciais e de custos de computação em declínio. Estamos comprometidos em oferecer suporte de longo prazo a cada GPU Nvidia, pois elas são totalmente compatíveis na arquitetura.

Nosso compromisso vem do fato de que a capacidade instalada é tão grande — toda vez que lançamos uma otimização, ela beneficia milhões de usuários. Essa combinação dinâmica expande nossa cobertura, acelera nosso crescimento e reduz continuamente os custos de computação, estimulando novas formas de crescimento. O CUDA é o núcleo de tudo isso.

De GeForce a CUDA: vinte e cinco anos de evolução

Nossa jornada com o CUDA começou há mais de vinte e cinco anos.

GeForce — muitos aqui cresceram com ela. GeForce é o projeto de marketing mais bem-sucedido da Nvidia. Desde antes de vocês poderem comprar nossos produtos, cultivamos futuros clientes — os pais de vocês, que se tornaram os primeiros usuários da Nvidia, comprando nossos produtos ano após ano, até que vocês se tornaram cientistas da computação de destaque, clientes e desenvolvedores de fato.

Essa foi a base de tudo que a GeForce construiu há 25 anos. Nessa época, inventamos os shaders programáveis — uma invenção óbvia, mas de grande impacto, que permitiu a aceleradores se tornarem programáveis, sendo a primeira implementação de um acelerador programável, o pixel shader. Quatro anos depois, criamos o CUDA — um dos maiores investimentos da Nvidia. Na época, a empresa tinha recursos limitados, mas apostamos grande na expansão do CUDA do GeForce para todas as máquinas. Acreditávamos profundamente em seu potencial. Apesar das dificuldades iniciais, mantivemos essa convicção por 13 gerações, vinte anos, e hoje o CUDA está em toda parte.

Foi o pixel shader que impulsionou a revolução da GeForce. E, cerca de oito anos atrás, lançamos a RTX — uma revolução completa na arquitetura de gráficos de computadores modernos. A GeForce levou o CUDA ao mundo, e foi assim que pesquisadores como Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton, Andrew Ng descobriram que GPUs podiam acelerar profundamente o aprendizado de máquina, desencadeando a explosão de IA há uma década.

Há dez anos, decidimos fundir o shader programável com duas ideias inovadoras: uma, o Ray Tracing (traçado de raios) em hardware, extremamente desafiador; e duas, uma visão avançada — há cerca de dez anos, prevíamos que a IA revolucionaria completamente os gráficos de computador. Assim como a GeForce trouxe IA ao mundo, a IA agora irá transformar a forma como os gráficos são realizados.

Hoje, quero mostrar o futuro. Nossa próxima geração de tecnologia gráfica, que chamamos de Neural Rendering — uma fusão profunda de gráficos 3D e IA. Essa é a DLSS 5, veja.

Neural Rendering: a fusão de dados estruturados e IA generativa

Incrível, não é? Os gráficos de computador ganham nova vida.

O que fizemos? Combinamos gráficos 3D controláveis (a base da realidade virtual) com seus dados estruturados, e os fundimos com IA generativa e cálculo probabilístico. Uma abordagem totalmente determinística, outra altamente probabilística e realista — fundimos essas duas ideias, usando dados estruturados para controle preciso, enquanto geramos conteúdo em tempo real.

No final, o conteúdo fica visualmente impressionante e totalmente controlável.

A fusão de dados estruturados com IA generativa será repetida em diversos setores. Dados estruturados são a base para IA confiável.

Plataforma de aceleração de dados estruturados e não estruturados

Agora, vou mostrar um diagrama de arquitetura tecnológica.

Dados estruturados — todos conhecem SQL, Spark, Pandas, Velox, além de plataformas importantes como Snowflake, Databricks, Amazon EMR, Azure Fabric, Google BigQuery — todos lidando com Data Frames. Esses Data Frames são como planilhas gigantes, contendo toda a informação do mundo empresarial, sendo a verdade fundamental (Ground Truth).

Na era da IA, precisamos que a IA utilize esses dados estruturados com máxima velocidade. No passado, acelerar o processamento de dados estruturados visava tornar as empresas mais eficientes. No futuro, a IA usará esses dados a uma velocidade muito maior que os humanos, e os agentes de IA irão consultar bancos de dados estruturados em grande escala.

Quanto aos dados não estruturados, eles representam a maior parte do mundo de dados — bancos de vetores, PDFs, vídeos, áudios. Aproximadamente 90% dos dados gerados anualmente são não estruturados. No passado, esses dados eram quase inúteis: apenas os armazenávamos em sistemas de arquivos, sem poder consultá-los ou indexá-los facilmente, pois faltava uma compreensão do seu significado e contexto. Agora, a IA consegue fazer isso — usando percepção multimodal e compreensão, ela pode ler PDFs, entender seu conteúdo e incorporá-los em estruturas maiores para consulta.

Para isso, a Nvidia criou duas bibliotecas fundamentais:

cuDF: para processamento acelerado de Data Frames e dados estruturados
cuVS: para armazenamento vetorial, dados semânticos e dados de IA não estruturados

Essas plataformas serão essenciais no futuro.

Hoje, anunciamos parcerias com várias empresas. A IBM — inventora da linguagem SQL — usará o cuDF para acelerar sua plataforma WatsonX Data. A Dell colaborou conosco na criação da Dell AI Data Platform, integrando cuDF e cuVS, com melhorias de desempenho em projetos reais da NTT Data. O Google Cloud está acelerando não só o Vertex AI, mas também o BigQuery, e colaborando com o Snapchat para reduzir seus custos de computação em quase 80%.

Os benefícios do processamento acelerado são três: velocidade, escala e custo. Isso é uma continuação lógica da Lei de Moore — ao acelerar o processamento, conseguimos saltos de desempenho, enquanto otimizamos algoritmos, reduzindo custos continuamente.

A Nvidia construiu uma plataforma de computação acelerada, agregando diversas bibliotecas: RTX, cuDF, cuVS, etc. Essas bibliotecas estão integradas aos serviços de nuvem globais e aos sistemas OEM, alcançando usuários em todo o mundo.

Parcerias profundas com provedores de nuvem

Parcerias com principais provedores de nuvem

Google Cloud: aceleramos o Vertex AI e o BigQuery, integrando profundamente com JAX/XLA, além de oferecer excelente desempenho no PyTorch — a Nvidia é o único acelerador que funciona bem tanto no PyTorch quanto no JAX/XLA. Levamos clientes como Base10, CrowdStrike, Puma, Salesforce para o ecossistema Google Cloud.

AWS: aceleramos o EMR, SageMaker e Bedrock, com integração profunda. Este ano, estou especialmente empolgado por levar o OpenAI ao AWS, o que impulsionará significativamente o consumo de nuvem da AWS, ajudando o OpenAI a expandir sua implantação regional e capacidade de computação.

Microsoft Azure: o supercomputador de 100 PFLOPS da Nvidia foi a primeira máquina de alta performance implantada na Azure, estabelecendo uma parceria importante com a OpenAI. Aceleramos os serviços de nuvem Azure e o AI Foundry, expandindo regiões Azure, e colaboramos profundamente na pesquisa do Bing. Vale destacar nossa capacidade de “Computação Confidencial” — garantindo que nem mesmo o provedor de serviços possa acessar os dados ou modelos dos usuários — nossos GPUs suportam essa tecnologia, permitindo implantação confidencial de modelos da OpenAI e Anthropic em ambientes de nuvem globais. Como exemplo, aceleramos toda a cadeia de EDA e CAD da Synopsys, implantada na Microsoft Azure.

Oracle: somos o primeiro cliente de IA da Oracle, e tenho orgulho de ter sido o primeiro a explicar o conceito de nuvem de IA para eles. Desde então, cresceram rapidamente, e introduzimos parceiros como Cohere, Fireworks, OpenAI, entre outros.

CoreWeave: a primeira nuvem nativa de IA do mundo, especializada em hospedagem de GPUs e serviços de IA na nuvem, com uma base de clientes excelente e crescimento forte.

Palantir + Dell: criaram uma nova plataforma de IA, baseada na plataforma de ontologia da Palantir e na plataforma de IA, capaz de implantar IA de forma totalmente local, em qualquer país ou ambiente isolado, desde o processamento de dados (vetorização ou estruturados) até toda a cadeia de computação acelerada de IA.

A Nvidia estabeleceu esse tipo de parceria especial com provedores globais de nuvem — levando clientes à nuvem, criando um ecossistema de benefício mútuo.

Integração vertical, abertura horizontal: a estratégia central da Nvidia

A Nvidia é a primeira empresa globalmente a integrar verticalmente e abrir horizontalmente.

A necessidade dessa abordagem é simples: o processamento acelerado não é apenas uma questão de chips ou sistemas, mas de aplicação — a aceleração de aplicações. Os CPUs podem fazer o computador todo rodar mais rápido, mas esse caminho atingiu um limite. No futuro, somente a aceleração específica de domínio ou aplicação continuará a gerar saltos de desempenho e redução de custos.

Por isso, a Nvidia precisa aprofundar seu trabalho em cada biblioteca, cada setor, cada indústria vertical. Somos uma empresa de computação de integração vertical, sem outro caminho. Precisamos entender aplicações, entender domínios, compreender algoritmos profundamente, e implantá-los em qualquer cenário — data centers, nuvem, local, borda ou robótica.

Ao mesmo tempo, mantemos uma abertura horizontal, integrando nossa tecnologia às plataformas de parceiros, para que o mundo todo possa se beneficiar do poder da computação acelerada.

A estrutura do GTC deste ano reflete bem essa estratégia. Entre os participantes, o setor de serviços financeiros é o mais representado — os visitantes são desenvolvedores, não traders. Nosso ecossistema cobre toda a cadeia de suprimentos, de fornecedores upstream a downstream. Empresas com 50, 70 ou 150 anos de história tiveram seu melhor ano na última temporada. Estamos no início de algo muito, muito importante.

CUDA-X: motores de computação acelerada para todos os setores

Em cada setor vertical, a Nvidia já está profundamente presente:

Veículos autônomos: abrangentes e de impacto profundo
Serviços financeiros: investimentos quantitativos estão migrando de engenharia de características para deep learning movido por supercomputadores, vivendo seu “momento Transformer”
Saúde: vivendo seu próprio “momento ChatGPT”, incluindo descoberta de medicamentos assistida por IA, agentes inteligentes de diagnóstico, atendimento médico
Indústria: uma onda de construção global está em andamento, com fábricas de IA, fábricas de chips e data centers sendo implantados
Entretenimento e jogos: plataformas de IA em tempo real suportam tradução, streaming, interação em jogos e agentes de compras inteligentes
Robótica: mais de dez anos de trabalho, com três arquiteturas de computação (treinamento, simulação, embarcada), com 110 robôs apresentados nesta feira
Telecomunicações: setor avaliado em cerca de US$ 2 trilhões, com estações base evoluindo de funções de comunicação para plataformas de infraestrutura de IA, como a plataforma Aerial, em parceria com Nokia, T-Mobile e outros

Todos esses setores têm como núcleo as bibliotecas CUDA-X — a essência da Nvidia como uma empresa de algoritmos. Essas bibliotecas são seus ativos mais valiosos, permitindo que a plataforma de computação gere valor real em cada setor.

Uma das mais importantes é a cuDNN (CUDA Deep Neural Network Library), que revolucionou a IA e desencadeou a explosão da IA moderna.

Tudo o que vocês viram até agora é simulação — incluindo solucionadores baseados em princípios físicos, modelos de IA para física, e robôs de IA física. Tudo é simulação, sem animações manuais ou articulações fixas. Essa é a capacidade central da Nvidia: através de uma compreensão profunda de algoritmos e da integração com a plataforma de computação, desbloqueamos essas oportunidades.

Empresas nativas de IA e a nova era de computação

Vocês viram gigantes como Walmart, L’Oréal, JPMorgan, Roche, Toyota, além de muitas empresas que vocês nunca ouviram falar — chamamos de empresas nativas de IA. Essa lista é enorme, incluindo OpenAI, Anthropic e muitas startups que atendem a diferentes setores verticais.

Nos últimos dois anos, esse setor experimentou uma ascensão surpreendente. Investimentos de risco em startups atingiram US$ 150 bilhões, um recorde na história humana. Ainda mais, o tamanho de cada investimento passou de alguns milhões de dólares para centenas de milhões ou bilhões de dólares. A razão é clara: é a primeira vez na história que todas essas empresas precisam de uma quantidade massiva de recursos de computação e tokens. Esse setor está criando, gerando tokens, ou valorizando tokens de instituições como Anthropic e OpenAI.

Assim como a revolução do PC, da internet e do mobile criaram empresas revolucionárias, essa transformação de plataforma de computação também dará origem a empresas altamente influentes, que serão forças no futuro.

As três maiores inovações que impulsionam tudo isso

O que aconteceu nos últimos dois anos? Três eventos principais.

Primeiro: ChatGPT, o início da era da IA generativa (final de 2022 a 2023)

Ele não só percebe e entende, mas também gera conteúdo único. Mostrei a fusão de IA generativa com gráficos de computador. A IA generativa mudou fundamentalmente a forma de computar — a computação passou de busca para geração, impactando profundamente a arquitetura, implantação e o significado geral.

Segundo: IA de raciocínio (Reasoning AI), representada pelo o1

A capacidade de raciocínio permite que a IA reflita, planeje e decompõe problemas — dividindo questões que ela não consegue entender diretamente em passos processáveis. O o1 torna a IA generativa confiável, capaz de raciocinar com base em informações reais. Para isso, o volume de tokens de entrada de contexto e de saída para reflexão aumenta significativamente, elevando o consumo de cálculo.

Terceiro: Claude Code, o primeiro modelo de agente

Ele consegue ler arquivos, escrever código, compilar, testar, avaliar e iterar. Claude Code revoluciona a engenharia de software — todos os engenheiros da Nvidia usam uma ou mais versões do Claude Code, Codex ou Cursor. Nenhum engenheiro de software trabalha sem IA.

Este é um ponto de inflexão: você não pergunta mais à IA “o que é, onde está, como fazer”, mas sim “crie, execute, construa”, fazendo-a usar ferramentas, ler arquivos, decompor problemas e agir. A IA evolui de percepção, geração, raciocínio, para realmente fazer o trabalho.

Nos últimos dois anos, o cálculo necessário para raciocínio cresceu cerca de 10.000 vezes, e o uso aumentou cerca de 100 vezes. Sempre acreditei que o crescimento da demanda de cálculo nos últimos dois anos foi de 1 milhão de vezes — uma sensação comum a todos, do OpenAI, da Anthropic. Quanto mais poder de cálculo, mais tokens podem ser gerados, maior a receita, mais inteligente a IA. O ponto de inflexão do raciocínio já chegou.

Era da infraestrutura de IA de um trilhão de dólares

No mesmo período do ano passado, afirmei que tínhamos alta confiança na demanda e nas ordens de compra de Blackwell e Rubin até 2026, na faixa de US$ 500 bilhões. Hoje, um ano depois, digo que até 2027 vejo esse número pelo menos em US$ 1 trilhão. E tenho certeza de que a demanda real será muito maior.

2025: o ano do raciocínio da Nvidia

2025 será o “Ano do Raciocínio” da Nvidia. Queremos garantir que, além do treinamento e pós-treinamento, a infraestrutura de IA seja excelente em todas as fases do ciclo de vida, para que o investimento na infraestrutura seja duradouro e de longo prazo, com menor custo por unidade ao longo do tempo.

Ao mesmo tempo, Anthropic e Meta se juntaram oficialmente à plataforma Nvidia, representando um terço da demanda global de poder de IA. Modelos de código aberto estão chegando ao estado de ponta, em todos os lugares.

A Nvidia é atualmente a única plataforma capaz de rodar todos os tipos de modelos de IA — de linguagem, biologia, gráficos, visão computacional, fala, proteínas, química, robótica — em qualquer ambiente, seja na borda ou na nuvem, em qualquer idioma. Essa universalidade torna nossa plataforma a mais econômica e confiável.

Atualmente, 60% dos negócios da Nvidia vêm dos cinco maiores provedores de nuvem de grande porte, enquanto os outros 40% estão dispersos em nuvens regionais, soberanas, empresas, indústrias, robótica e computação de borda. A abrangência da IA é sua maior resistência — uma verdadeira revolução na plataforma de computação.

Grace Blackwell e NVLink 72: uma revolução de arquitetura ousada

Durante o auge da arquitetura Hopper, decidimos reestruturar completamente o sistema, expandindo NVLink de 8 para 72 vias, para uma reconstrução total do sistema de computação. Grace Blackwell NVLink 72 foi uma aposta tecnológica enorme, difícil para todos os parceiros, e agradeço sinceramente a todos.

Ao mesmo tempo, lançamos o NVFP4 — uma nova classe de núcleos tensor e unidades de cálculo, não apenas FP4 comum. Com ele, conseguimos inferência sem perda de precisão, com ganhos de desempenho e eficiência energética. Ele também serve para treinamento. Além disso, novas algoritmos como Dynamo e TensorRT-LLM foram lançados, e investimos bilhões na construção de um supercomputador chamado DGX Cloud para otimizar kernels.

Os resultados mostram um desempenho de inferência impressionante. Dados do Semi Analysis — a avaliação mais abrangente de desempenho de inferência de IA até hoje — mostram que a Nvidia lidera em eficiência por watt e custo por token. Enquanto a Lei de Moore previa um aumento de 1,5 vezes no desempenho do H200, conseguimos 35 vezes. Dylan Patel, do Semi Analysis, até disse: “Jensen foi conservador, na verdade é 50 vezes.” E ele não está errado.

Citando-o: “Jensen sandbagged (Huang foi conservador na contagem).”

O custo por token da Nvidia é o mais baixo do mundo, sem concorrência. A razão é o design de co-design extremo.

Por exemplo, antes da atualização de software e algoritmos, o Fireworks tinha uma velocidade média de cerca de 700 tokens por segundo; após a atualização, quase 5.000 tokens por segundo, um aumento de cerca de 7 vezes. Essa é a força do co-design extremo.

Fábrica de IA: de data centers a fábricas de tokens

Data centers, que antes eram apenas locais de armazenamento de arquivos, agora são fábricas de tokens. Cada provedor de nuvem e cada empresa de IA usará “eficiência de fábrica de tokens” como métrica principal de desempenho.

Minha tese central:

Eixo vertical: throughput — tokens gerados por segundo sob potência fixa
Eixo horizontal: velocidade de interação — resposta por inferência, quanto mais rápido, maior o modelo e o contexto, mais inteligente a IA

Tokens são a nova commodity, e, uma vez amadurecidos, terão preços escalonados:

Nível gratuito (alto throughput, baixa velocidade)
Nível intermediário (~US$ 3 por milhão de tokens)
Nível avançado (~US$ 6 por milhão de tokens)
Nível de alta velocidade (~US$ 45 por milhão de tokens)
Nível ultrarrápido (~US$ 150 por milhão de tokens)

Comparado ao Hopper, o Grace Blackwell aumenta o throughput no nível de maior valor em 35 vezes, e introduz novos níveis. Com uma estimativa simplificada, alocando 25% de potência para cada nível, o Grace Blackwell gera cinco vezes mais receita que o Hopper.

Vera Rubin: o sistema de computação de IA de próxima geração

Vera Rubin é um sistema completo, otimizado de ponta a ponta, projetado para cargas de trabalho de agentes (Agentic):

Núcleo de computação de grandes modelos de linguagem: cluster de GPUs NVLink 72, para pré-preenchimento (Pre-fill) e cache KV
Novo CPU Vera: projetado para desempenho de thread único extremo, com memória LPDDR5, eficiência energética superior, único CPU de data center com LPDDR5, ideal para chamadas de ferramentas de agentes de IA
Sistema de armazenamento: BlueField 4 + CX 9, nova plataforma de armazenamento para a era da IA, com participação de 100% na indústria de armazenamento global
Switch Spectrum X: o primeiro switch de troca óptica empacotada em massa do mundo
Rack Kyber: novo sistema de rack, suportando 144 GPUs formando um único domínio NVLink, com computação front-end e troca NVLink no back-end, formando um supercomputador gigante
Rubin Ultra: próximo supercomputador de próxima geração, com design de inserção vertical, compatível com o Kyber, para maior escala de interconexão NVLink

Vera Rubin já é totalmente líquida, com instalação reduzida de dois dias para duas horas, usando resfriamento com água a 45°C, reduzindo significativamente a carga de resfriamento do data center. Satya Nadella confirmou que a primeira unidade Vera Rubin já está operando na Azure, o que me enche de entusiasmo.

Integração de Groq: o limite máximo de desempenho de inferência

Adquirimos a equipe Groq e sua tecnologia. Groq é um processador de fluxo de dados determinístico (Deterministic Dataflow Processor), usando compilação estática e agendamento por compilador, com grande SRAM, otimizado para cargas de trabalho de inferência única, com latência extremamente baixa e alta velocidade de geração de tokens.

Porém, a memória do Groq é limitada (500MB de SRAM na chip), dificultando a sustentação de grandes modelos com muitos parâmetros e cache KV, restringindo seu uso em larga escala.

A solução é o Dynamo — um sistema de agendamento de inferência. Com o Dynamo, desacoplamos toda a pipeline de inferência:

Pré-preenchimento e atenção na decodificação (decode) são feitos pelo Vera Rubin (exigem muita computação e memória KV)
Decodificação de feed-forward (FFN), a geração de tokens, é feita pelo Groq (exige alta largura de banda e baixa latência)

Esses dois processos são acoplados por Ethernet, usando modos especiais para reduzir a latência em cerca de metade. Com o sistema de agendamento unificado do “sistema operacional de fábrica de IA” Dynamo, o desempenho total aumenta em 35 vezes, abrindo uma nova camada de inferência que antes era inacessível com NVLink 72.

A combinação Groq + Vera Rubin recomenda-se assim:

Para cargas de trabalho de alto throughput, use 100% Vera Rubin
Para cargas de trabalho de geração de tokens de alto valor, introduza Groq, com proporção de cerca de 25% Groq e 75% Vera Rubin

O chip Groq LP30, fabricado pela Samsung, já está em produção em massa, com previsão de envio no Q3. Agradeço à Samsung pelo apoio total.

Salto histórico de desempenho de inferência

Quantificando o avanço: em dois anos, a taxa de geração de tokens de uma fábrica de IA de 1 GW passará de 22 milhões para 700 milhões por segundo, um aumento de 350 vezes. Essa é a força do co-design extremo.

Roteiro tecnológico

Blackwell: em produção, com sistema padrão Oberon, expansão de NVLink de 8 para 72 vias, opcionalmente até 576 vias com fibra óptica
Vera Rubin (atualmente): rack Kyber, NVLink 144 (cabo de cobre); rack Oberon, NVLink 72 + fibra óptica, expansão até NVLink 576; Spectrum 6, o primeiro switch CPO do mundo
Vera Rubin Ultra (em breve): nova GPU Rubin Ultra, chip LP35 (com NVFP4 integrado), com desempenho várias vezes maior
Feynman (próxima geração): nova GPU, chip LP40 (desenvolvido em parceria com Groq, com NVFP4), nova CPU Rosa (Rosalyn), BlueField 5, CX 10, com suporte a ambas as extensões — cobre e CPO — no sistema de rack Kyber

O roteiro é claro: expansão por cabos de cobre, fibra óptica (Scale-Up) e fibra óptica em escala (Scale-Out), com todos os parceiros expandindo continuamente a capacidade de cobre, fibra e CPO.

Nvidia DSX: plataforma de gêmeo digital para fábricas de IA

As fábricas de IA estão se tornando cada vez mais complexas, mas os fornecedores de tecnologia que as compõem nunca colaboraram na fase de projeto — até agora, quando se encontram nos data centers, o que é insuficiente.

Por isso, criamos o Omniverse e a plataforma Nvidia DSX, uma plataforma de design e operação de fábricas de IA de gigavatts em um mundo virtual. O DSX oferece:

Simulação de racks, térmica, elétrica e de rede
Conexão com a rede elétrica, para coordenação de economia de energia
Otimização dinâmica de consumo e resfriamento dentro do data center, baseada em Max-Q

Estimamos que esse sistema pode dobrar a eficiência

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
GateAIGateClawOfficiallyLaunches
338.24K Popularidade
#
BitcoinBoomsAbove$75K
49.96M Popularidade
#
IsraelStrikesIranBTCPlunges
14.3K Popularidade
#
NvidiaGTC2026ConferenceBegins
2.11M Popularidade
#
IranDeploysMinesInStraitOfHormuz
180.93K Popularidade

Gate Fun tendência
Ver mais

1
Grok
xAI投行分析
LM:$2.5KTitulares:1
0.00%
2
享自由币
aAsss
LM:$2.5KTitulares:1
0.00%
3
ARST
虾虾币
LM:$2.49KTitulares:1
0.00%
4
ISPP
自动短剧生产
LM:$2.49KTitulares:1
0.00%
5
100000000
Amrit
LM:$2.52KTitulares:1
0.00%

Fixar

Discurso completo de Jensen Huang na GTC: A era da inferência chegou, e a lagosta é o novo sistema operacional

Orientação de desempenho extremamente otimista, “demanda de pelo menos 1 trilhão de dólares até 2027”

Economia das fábricas de tokens, o desempenho por watt decide o destino do negócio

Vera Rubin alcançou uma aceleração de 350 vezes em dois anos, enquanto a Groq preenche a lacuna de inferência ultrarrápida

Agent: o fim do SaaS tradicional, “salário + tokens” torna-se padrão do Vale do Silício

CUDA: vinte anos de acumulação tecnológica

De GeForce a CUDA: vinte e cinco anos de evolução

Neural Rendering: a fusão de dados estruturados e IA generativa

Plataforma de aceleração de dados estruturados e não estruturados

Parcerias profundas com provedores de nuvem

Integração vertical, abertura horizontal: a estratégia central da Nvidia

CUDA-X: motores de computação acelerada para todos os setores

Empresas nativas de IA e a nova era de computação

As três maiores inovações que impulsionam tudo isso

Era da infraestrutura de IA de um trilhão de dólares

2025: o ano do raciocínio da Nvidia

Grace Blackwell e NVLink 72: uma revolução de arquitetura ousada

Fábrica de IA: de data centers a fábricas de tokens

Vera Rubin: o sistema de computação de IA de próxima geração

Integração de Groq: o limite máximo de desempenho de inferência

Salto histórico de desempenho de inferência

Roteiro tecnológico

Nvidia DSX: plataforma de gêmeo digital para fábricas de IA

Tópicos em destaque

GateAIGateClawOfficiallyLaunches

BitcoinBoomsAbove$75K

IsraelStrikesIranBTCPlunges

NvidiaGTC2026ConferenceBegins

IranDeploysMinesInStraitOfHormuz

Gate Fun tendência

Grok

xAI投行分析

享自由币

aAsss

ARST

虾虾币

ISPP

自动短剧生产

100000000

Amrit

Fixar