Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
TradFi
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
Launchpad
Anticípate a los demás en el próximo gran proyecto de tokens
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gestión patrimonial privada
Asignación de activos prémium
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
New
Apalancamiento sin liquidación
Acuñación de GUSD
Acuña GUSD y gana rentabilidad de RWA
Entrevista de Huang Renxun en GTC: La inferencia de baja latencia se convertirá en el próximo motor de explosión de la economía de la IA, y el equilibrio entre la oferta y la demanda de chips de energía se mantendrá a largo plazo.
AI está pasando de “generar información” a “ejecutar tareas”, y los escenarios de inferencia de baja latencia y alto rendimiento, representados por los agentes de codificación, están abriendo la siguiente etapa importante en la comercialización de la infraestructura de IA. En el lado de la oferta, la construcción de energía eléctrica, chips y centros de datos casi carece de redundancia, el equilibrio ajustado podría convertirse en la característica duradera de la industria a largo plazo.
Tras la conclusión del discurso principal en GTC 2026, el CEO de Nvidia, Jensen Huang, concedió una entrevista exclusiva a Ben Thompson, fundador de Stratechery, donde expresó sus opiniones sistemáticas sobre la economía de la inferencia de IA, la estrategia de CPU, la adquisición de Groq y la tensión en la cadena de suministro.
Huang señaló en la entrevista que la IA ha superado un umbral clave en el último año: la mejora en la capacidad de inferencia ha permitido que los modelos generen por primera vez un valor económico real, y la explosión de los agentes de programación es la manifestación más clara de este cambio. Nvidia ha incorporado oficialmente la inferencia de ultra alta velocidad y baja latencia en su línea de productos.
En cuanto a la cadena de suministro, Huang afirmó que “casi todos los enlaces están muy ajustados”, ya sea en energía o en chips, y que es difícil duplicar fácilmente la capacidad. Aunque Nvidia dice que su cadena de suministro ya ha sido planificada para “este año y el próximo”, él espera que “tierra, energía y centros de datos” puedan implementarse más rápidamente, lo cual afectará directamente el ritmo de expansión del poder de cálculo y la realización del gasto de capital.
Economía de la inferencia: la baja latencia se convierte en el próximo motor de pago
Huang atribuye el avance central en el desarrollo de la IA en el último año a la maduración de la “inferencia”. Él dice que, en los primeros tiempos, la IA generativa era difícil de comercializar debido a problemas de alucinaciones, pero la introducción de la inferencia permite que los modelos reflexionen, recuperen y busquen para “materializarse”, elevándose así de simplemente proporcionar información a completar tareas reales.
“Buscar es un servicio sin que nadie pague por ello, porque la barrera para obtener información no es lo suficientemente alta para que la gente pague”, dice Huang. “Ahora hemos superado esa barrera: la IA no solo puede conversar con las personas, sino también hacer cosas por ellas.”
La programación es uno de los ejemplos más típicos. Él señala que la generación de código no es un modo de lenguaje ordinario; requiere que el modelo reflexione, verifique y ejecute bloques de código en su conjunto. La madurez de esta capacidad permite a los ingenieros dedicar más esfuerzo a la arquitectura y el diseño de especificaciones en lugar de escribir línea por línea.
Él revela que todos los ingenieros de software internos de Nvidia ya usan agentes de programación al 100%, “muchos no han escrito una sola línea de código a mano en mucho tiempo, pero su productividad es muy alta”.
Basándose en esta evaluación, Nvidia ha decidido incorporar la capacidad de inferencia de baja latencia en su línea de productos. Huang explica que los sistemas GPU existentes tienen una tensión inherente entre maximizar el rendimiento y la calidad de los tokens inteligentes, y que los usuarios de agentes de programación de alto valor están dispuestos a pagar una prima por un aumento de velocidad de generación de tokens de 10 veces.
Adquisición de Groq: una estrategia para desglosar la línea de producción de inferencia
La decisión de Nvidia de adquirir Groq, en opinión de Huang, no fue una acción impulsiva, sino una extensión natural de su estrategia de años en infraestructura de inferencia.
Él dice que, cuando Nvidia lanzó el marco de programación Dynamo para inferencia hace un año, ya estaban pensando en cómo dividir más granularmente el proceso de inferencia en infraestructura heterogénea. La colaboración con Groq comenzó unos seis meses antes del anuncio de la adquisición. El núcleo de la operación es obtener el equipo y la licencia tecnológica de Groq, no su negocio de servicios en la nube.
En términos técnicos, Nvidia planea extender la división de la línea de inferencia hasta la etapa de decodificación interna, donde la GPU Vera Rubin maneja cálculos de atención de alto FLOP, y la arquitectura LPU de Groq asume las partes que requieren tasas extremadamente altas de tokens y baja latencia. Se planea lanzar productos relacionados este año.
Él dice:
También admite que esta solución no es adecuada para todos los clientes. Para plataformas centradas en usuarios gratuitos con tasas de conversión a pago aún bajas, introducir Groq aumentaría costos y complejidad, y no sería rentable.
Huang compara Groq con la adquisición previa de Mellanox — ambos representan la lógica de Nvidia de integrar arquitecturas externas especializadas en su pila de cálculo para lograr una optimización a nivel de sistema. “Nvidia es una compañía de cálculo acelerado, no solo una de GPU; no nos importa dónde ocurre el cálculo, solo queremos acelerar las aplicaciones.”
Estrategia de CPU: redefiniendo la arquitectura de servidores para la era de los agentes de IA
En un contexto donde Nvidia ha sido vista durante mucho tiempo como una compañía de GPU, Huang explica sistemáticamente en esta entrevista la lógica de su incursión en el mercado de CPU y detalla la filosofía de diseño de su CPU Vera.
Él señala que, en los últimos diez años, el diseño de CPU ha estado orientado a optimizar para la computación en la nube a gran escala, maximizando el número de núcleos disponibles, sin priorizar el rendimiento de un solo hilo. Sin embargo, en escenarios de agentes de IA, cuando la GPU espera a que las llamadas a herramientas regresen, el rendimiento de un solo hilo en la CPU determina directamente la eficiencia general del sistema. “Nunca puedes dejar que la GPU esté ociosa”, dice.
La diferencia clave de Vera CPU radica en el ancho de banda de memoria y de I/O: cada núcleo de CPU tiene un ancho de banda tres veces mayor que cualquier CPU actual, diseñado para evitar que los cuellos de botella de I/O ralenticen a la GPU. También menciona su colaboración con Intel en NVLink para satisfacer la continuidad del ecosistema x86 en el mercado empresarial.
Huang clasifica el uso de herramientas de agentes de IA en dos categorías: una, las herramientas estructuradas, como CLI, API y consultas a bases de datos; otra, las no estructuradas, que incluyen aplicaciones en PC que requieren que el modelo perciba múltiples modalidades y opere en interfaces web. Nvidia tiene presencia en ambas vías.
Equilibrio tenso en la oferta: energía y capacidad de chips en crisis
Respecto a la persistente preocupación del mercado por la oferta de potencia de cálculo de IA, Huang ofrece la evaluación más directa hasta ahora: la energía y la capacidad de chips están en un equilibrio muy ajustado, sin espacio para duplicar en el corto plazo.
“Creo que no tenemos el doble de energía necesaria, ni el doble de capacidad de chips”, afirma. “En ningún aspecto hay redundancia de dos veces”. Pero añade: “Desde lo que veo ahora, nuestra cadena de suministro puede soportarlo.”
Indica que Nvidia cuenta con aproximadamente 200 socios a largo plazo en la cadena de suministro, y que ha planificado con anticipación tanto en upstream como en downstream, siendo optimista respecto al crecimiento a gran escala en los próximos dos años.
Pero admite que, quizás, el mayor cuello de botella no sea el chip en sí, sino la velocidad con la que los centros de datos, la tierra, la energía y los edificios pueden implementarse. “Lo que más deseo es que estas infraestructuras puedan completarse más rápido.”
Al preguntarle si Nvidia es el mayor beneficiario de la escasez de potencia de cálculo, Huang reconoce que la compañía, por su tamaño y preparación de la cadena de suministro, está en la mejor posición, pero atribuye esto a una planificación a largo plazo, no a una ventaja accidental del mercado.
Aviso de riesgo y exención de responsabilidad