大规模计算革命:Vera Rubin的“核弹”如何重新定义人工智能的未来

无法忽视的挑战:摩尔定律放缓,AI需求爆炸式增长

行业面临一个尴尬的悖论:随着硅基技术的提升速度减缓,人工智能模型对性能的要求每年都在指数级增长。对于一个价值500亿美元、容量为1 GW的数据中心来说,旧架构与新架构之间的差异可能意味着直接翻倍的收入生成能力。

全球领先科技公司CEO黄仁勋坦率承认这一困境:传统的优化方法已无法跟上节奏。因此,这次他们没有像以往那样只更换1或2个芯片,而是对Vera Rubin计算平台的6个关键组件进行了全面重新设计,该平台已进入量产阶段。

Vera Rubin:重新定义游戏规则的架构

本轮的真正主角不是一张普通的显卡,而是一个完整的处理生态系统。Vera Rubin以发现暗物质的天文学家命名,代表一种思维转变:在平台的所有层面同时创新。

该架构的6大支柱为:

Vera CPU提供智能与协调。配备88个定制的奥林匹斯核心,支持176个超线程,采用空间多线程技术。1.8 TB/s的NVLink C2C带宽和1.5 TB的系统内存(相较上一代三倍)确保基本操作无瓶颈。拥有2270亿个晶体管,集成了协调大规模操作所需的强大处理能力。

Rubin GPU作为计算核心,达到50 PFLOPS的低精度推理性能,是Blackwell架构的五倍。拥有3360亿个晶体管,集成第三代Transformer引擎,根据模型需求动态调整精度。

ConnectX-9网络卡提供超高速连接,支持800 Gb/s以太网,基于200G的PAM4技术。包括可编程RDMA和数据路径加速器,获得CNSA和FIPS安全认证,拥有230亿个晶体管。

BlueField-4 DPU作为新一代AI存储专用处理器,具备800 Gb/s SmartNIC能力,结合64核Grace CPU与ConnectX-9,集成1260亿个晶体管,专为关键存储任务设计。

NVLink-6交换芯片是内部网络的调度者。可连接18个计算节点,协调多达72个Rubin GPU,形成一个统一的系统。采用NVLink 6架构,每个GPU实现3.6 TB/s的全互联带宽,支持超高速集体通信。

最后,Spectrum-6光交换机管理512个200Gbps通道,支持超越传统速度的传输。采用台积电COOP工艺的集成硅光技术,提供3520亿个晶体管,用于光互连的集成封装。

数字背后的数字:前所未有的性能提升

由此深度集成的NVL72系统树立了新标杆。在低精度推理任务中,达到3.6 EFLOPS,是上一代的五倍。在训练方面,达到2.5 EFLOPS,提升了3.5倍。

可用内存也实现三倍增长:主系统中配备54TB LPDDR5X,而高带宽HBM为20.7TB。HBM4带宽达1.6 PB/s(2.8倍于前一代),Scale-Up带宽达260 TB/s,是上一代的两倍。

最令人瞩目的是:这些性能飞跃仅用1.7倍的晶体管(总计2.2万亿个),证明架构创新与硅密度同样重要。

从数字到实体:下一道前沿

虽然数字令人震撼,但其真正影响在于应用。AI现在需要从数字世界迈向实体世界。为此,需三类集成计算:

训练计算机,如GB300架构,用于生成基础模型。推理计算机,即“大脑”,在机器人或自动驾驶车辆中实时运行。以及仿真计算机,如Omniverse和Cosmos平台,提供虚拟环境,让AI在操作实体前学习物理反馈。

Alpamayo:具备推理能力的自动驾驶

基于这套三计算机架构,诞生了Alpamayo,这是首个具备真正推理能力的自动驾驶系统。不同于传统的硬编码指令,Alpamayo像人类司机一样推理,能解释下一步的行动及其原因。

搭载该技术的梅赛德斯CLA将在今年第一季度正式在美国上市,随后推向欧洲和亚洲。该车被NCAP评为全球最安全的车辆,采用“安全双层堆叠”架构,在端到端AI系统与传统安全协议之间切换,当信任度降低时保障安全。

机器人:超越人形机器人

策略还扩展到人形和四足机器人,全部配备Jetson微型计算机,并在Isaac模拟器中训练。还涉及工业系统,如Synopsys、Cadence和Siemens的工具。

黄仁勋在发布会上打趣道:“最大的机器人就是工厂本身。机器人将用计算机设计、制造,甚至在面对重力之前在虚拟计算机中测试验证。”

更广阔的背景:10万亿美元的现代化

过去十年,全球大约10万亿美元的计算基础设施正经历全面现代化。这不仅是硬件升级,更是软件开发与部署范式的变革。

开源模型的崛起,如DeepSeek以其推理效率震惊世界,催生了一波创新浪潮。虽然这些模型可能比最先进的滞后6个月,但每半年就会出现一代具有竞争力的新模型。

这种快速迭代让创业公司、巨头企业和研究人员保持持续创新。Nemotron开源模型平台涵盖生物医学、物理AI、智能代理、机器人和自动驾驶等领域,多个版本在独立排名中名列前茅,广泛被各类企业采用。

高效能的回报:tokens per watt 和 tokens per dollar

虽然Vera Rubin的能耗是前代的两倍,但性能提升远超能耗增长。关键指标是每瓦和每美元生成的tokens吞吐量,提升了10倍。

对于一个1 GW的数据中心,Spectrum-X的吞吐量提升25%,相当于节省了50亿美元的基础设施投资。“这个网络系统几乎是免费的,”高管如是说。

解决KV Cache:生成式AI的最大难题

行业的最大痛点是“KV Cache”,即在长对话中AI消耗的工作内存。随着模型变大、对话延长,可用的HBM内存会耗尽。

Vera Rubin通过在每个机架中部署BlueField-4处理器解决了这一问题。每个节点配备4个BlueField-4,提供150TB的分布式上下文内存,GPU间还配备16TB,保持200Gbps的带宽。这样,分散在多个机架中的数千GPU就像一个统一的共享内存。

这场“核弹”的地缘政治意义

Vera Rubin的发布不仅代表技术创新,更具有深远的地缘政治意义。在对AI泡沫是否可持续存疑的时代,黄仁勋需要用具体事实证明AI的实际能力:从安全自动驾驶到工业机器人,从蛋白质合成到普及技术的开源系统。

多年前,公司还在“金矿热潮”中卖“镐”。如今,直接参与实体产业的变革,从汽车到制造业。这一从零部件供应商到生态系统调度者的转变,标志着科技行业未来十年的根本性转型。

LA4.88%
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)