Entrevista de Huang Renxun en GTC: La inferencia de baja latencia se convertirá en el próximo motor de explosión de la economía de la IA, y el equilibrio entre la oferta y la demanda de chips de energía se mantendrá a largo plazo.

SnapshotLaborer · 2026-03-17T12:09:44+00:00

Huang Ren Xun expresó en una entrevista que la mejora en la capacidad de razonamiento de IA hace que los modelos comiencen a crear valor económico, siendo el auge de los agentes de programación el indicador de este cambio. Con la tensión en la oferta de electricidad y capacidad de chips, Nvidia integró la capacidad de inferencia de baja latencia en su línea de productos y adquirió Groq para optimizar el proceso de inferencia. Simultáneamente, el concepto de diseño de Vera CPU ha redefinido la arquitectura de servidores para adaptarse a las necesidades de los agentes de IA.

SnapshotLaborer

2026-03-17 12:09:44

Generación de resúmenes en curso

AI está pasando de “generar información” a “ejecutar tareas”, y los escenarios de inferencia de baja latencia y alto rendimiento, representados por los agentes de codificación, están abriendo la siguiente etapa importante en la comercialización de la infraestructura de IA. En el lado de la oferta, la construcción de energía eléctrica, chips y centros de datos casi carece de redundancia, el equilibrio ajustado podría convertirse en la característica duradera de la industria a largo plazo.

Tras la conclusión del discurso principal en GTC 2026, el CEO de Nvidia, Jensen Huang, concedió una entrevista exclusiva a Ben Thompson, fundador de Stratechery, donde expresó sus opiniones sistemáticas sobre la economía de la inferencia de IA, la estrategia de CPU, la adquisición de Groq y la tensión en la cadena de suministro.

Huang señaló en la entrevista que la IA ha superado un umbral clave en el último año: la mejora en la capacidad de inferencia ha permitido que los modelos generen por primera vez un valor económico real, y la explosión de los agentes de programación es la manifestación más clara de este cambio. Nvidia ha incorporado oficialmente la inferencia de ultra alta velocidad y baja latencia en su línea de productos.

En cuanto a la cadena de suministro, Huang afirmó que “casi todos los enlaces están muy ajustados”, ya sea en energía o en chips, y que es difícil duplicar fácilmente la capacidad. Aunque Nvidia dice que su cadena de suministro ya ha sido planificada para “este año y el próximo”, él espera que “tierra, energía y centros de datos” puedan implementarse más rápidamente, lo cual afectará directamente el ritmo de expansión del poder de cálculo y la realización del gasto de capital.

Economía de la inferencia: la baja latencia se convierte en el próximo motor de pago

Huang atribuye el avance central en el desarrollo de la IA en el último año a la maduración de la “inferencia”. Él dice que, en los primeros tiempos, la IA generativa era difícil de comercializar debido a problemas de alucinaciones, pero la introducción de la inferencia permite que los modelos reflexionen, recuperen y busquen para “materializarse”, elevándose así de simplemente proporcionar información a completar tareas reales.

“Buscar es un servicio sin que nadie pague por ello, porque la barrera para obtener información no es lo suficientemente alta para que la gente pague”, dice Huang. “Ahora hemos superado esa barrera: la IA no solo puede conversar con las personas, sino también hacer cosas por ellas.”

La programación es uno de los ejemplos más típicos. Él señala que la generación de código no es un modo de lenguaje ordinario; requiere que el modelo reflexione, verifique y ejecute bloques de código en su conjunto. La madurez de esta capacidad permite a los ingenieros dedicar más esfuerzo a la arquitectura y el diseño de especificaciones en lugar de escribir línea por línea.

Él revela que todos los ingenieros de software internos de Nvidia ya usan agentes de programación al 100%, “muchos no han escrito una sola línea de código a mano en mucho tiempo, pero su productividad es muy alta”.

Basándose en esta evaluación, Nvidia ha decidido incorporar la capacidad de inferencia de baja latencia en su línea de productos. Huang explica que los sistemas GPU existentes tienen una tensión inherente entre maximizar el rendimiento y la calidad de los tokens inteligentes, y que los usuarios de agentes de programación de alto valor están dispuestos a pagar una prima por un aumento de velocidad de generación de tokens de 10 veces.

“Si Anthropic lanza un servicio Claude Code que aumenta la velocidad de programación 10 veces, pagaré por ello, sin duda. Estoy construyendo ese producto para mí mismo.”

Adquisición de Groq: una estrategia para desglosar la línea de producción de inferencia

La decisión de Nvidia de adquirir Groq, en opinión de Huang, no fue una acción impulsiva, sino una extensión natural de su estrategia de años en infraestructura de inferencia.

Él dice que, cuando Nvidia lanzó el marco de programación Dynamo para inferencia hace un año, ya estaban pensando en cómo dividir más granularmente el proceso de inferencia en infraestructura heterogénea. La colaboración con Groq comenzó unos seis meses antes del anuncio de la adquisición. El núcleo de la operación es obtener el equipo y la licencia tecnológica de Groq, no su negocio de servicios en la nube.

En términos técnicos, Nvidia planea extender la división de la línea de inferencia hasta la etapa de decodificación interna, donde la GPU Vera Rubin maneja cálculos de atención de alto FLOP, y la arquitectura LPU de Groq asume las partes que requieren tasas extremadamente altas de tokens y baja latencia. Se planea lanzar productos relacionados este año.

Él dice:

“Pero si tu negocio, como Anthropic o OpenAI, está generando un valor económico real, y quieres producir más tokens, unirte a este acelerador puede aumentar significativamente los ingresos.”

También admite que esta solución no es adecuada para todos los clientes. Para plataformas centradas en usuarios gratuitos con tasas de conversión a pago aún bajas, introducir Groq aumentaría costos y complejidad, y no sería rentable.

Huang compara Groq con la adquisición previa de Mellanox — ambos representan la lógica de Nvidia de integrar arquitecturas externas especializadas en su pila de cálculo para lograr una optimización a nivel de sistema. “Nvidia es una compañía de cálculo acelerado, no solo una de GPU; no nos importa dónde ocurre el cálculo, solo queremos acelerar las aplicaciones.”

Estrategia de CPU: redefiniendo la arquitectura de servidores para la era de los agentes de IA

En un contexto donde Nvidia ha sido vista durante mucho tiempo como una compañía de GPU, Huang explica sistemáticamente en esta entrevista la lógica de su incursión en el mercado de CPU y detalla la filosofía de diseño de su CPU Vera.

Él señala que, en los últimos diez años, el diseño de CPU ha estado orientado a optimizar para la computación en la nube a gran escala, maximizando el número de núcleos disponibles, sin priorizar el rendimiento de un solo hilo. Sin embargo, en escenarios de agentes de IA, cuando la GPU espera a que las llamadas a herramientas regresen, el rendimiento de un solo hilo en la CPU determina directamente la eficiencia general del sistema. “Nunca puedes dejar que la GPU esté ociosa”, dice.

La diferencia clave de Vera CPU radica en el ancho de banda de memoria y de I/O: cada núcleo de CPU tiene un ancho de banda tres veces mayor que cualquier CPU actual, diseñado para evitar que los cuellos de botella de I/O ralenticen a la GPU. También menciona su colaboración con Intel en NVLink para satisfacer la continuidad del ecosistema x86 en el mercado empresarial.

Huang clasifica el uso de herramientas de agentes de IA en dos categorías: una, las herramientas estructuradas, como CLI, API y consultas a bases de datos; otra, las no estructuradas, que incluyen aplicaciones en PC que requieren que el modelo perciba múltiples modalidades y opere en interfaces web. Nvidia tiene presencia en ambas vías.

Equilibrio tenso en la oferta: energía y capacidad de chips en crisis

Respecto a la persistente preocupación del mercado por la oferta de potencia de cálculo de IA, Huang ofrece la evaluación más directa hasta ahora: la energía y la capacidad de chips están en un equilibrio muy ajustado, sin espacio para duplicar en el corto plazo.

“Creo que no tenemos el doble de energía necesaria, ni el doble de capacidad de chips”, afirma. “En ningún aspecto hay redundancia de dos veces”. Pero añade: “Desde lo que veo ahora, nuestra cadena de suministro puede soportarlo.”

Indica que Nvidia cuenta con aproximadamente 200 socios a largo plazo en la cadena de suministro, y que ha planificado con anticipación tanto en upstream como en downstream, siendo optimista respecto al crecimiento a gran escala en los próximos dos años.

Pero admite que, quizás, el mayor cuello de botella no sea el chip en sí, sino la velocidad con la que los centros de datos, la tierra, la energía y los edificios pueden implementarse. “Lo que más deseo es que estas infraestructuras puedan completarse más rápido.”

Al preguntarle si Nvidia es el mayor beneficiario de la escasez de potencia de cálculo, Huang reconoce que la compañía, por su tamaño y preparación de la cadena de suministro, está en la mejor posición, pero atribuye esto a una planificación a largo plazo, no a una ventaja accidental del mercado.

Aviso de riesgo y exención de responsabilidad

        El mercado tiene riesgos, invierta con precaución. Este artículo no constituye asesoramiento de inversión personal y no considera objetivos, situación financiera o necesidades específicas de ningún usuario. Los usuarios deben evaluar si las opiniones, puntos de vista o conclusiones aquí presentados se ajustan a su situación particular. Invierta bajo su propio riesgo.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.