大量計算の革命：ヴェラ・ルービンの「核爆弾」がAIの未来を再定義する

2026-01-12 08:48:32

無視できない課題：ムーアの法則の減速とAI需要の爆発

産業は居心地の悪いパラドックスに直面している：シリコンの改善速度が鈍化する一方で、人工知能モデルは毎年指数関数的な性能向上を要求している。50億ドルのコストがかかる1 GWのデータセンターにとって、旧アーキテクチャと新アーキテクチャの差は、収益生成能力を直接倍増させることを意味する。

世界的なテクノロジーリーダーの一つのCEO、ジェンセン・ファンはこのジレンマを率直に認めている：従来の最適化手法はもはや追いつかない。そこで今回は、従来の1〜2チップのアップグレードにとどまらず、既に大量生産段階にあるVera Rubinプラットフォームの6つの主要コンポーネントを全面的に再設計した。

Vera Rubin：ゲームのルールを書き換えるアーキテクチャ

このサイクルの真の主役は従来のグラフィックカードではなく、包括的な処理エコシステムである。暗黒物質を発見した天文学者にちなんで名付けられたVera Rubinは、プラットフォームのすべてのレベルで同時に革新を行うという思考の変化を象徴している。

このアーキテクチャの6つの柱は：

Vera CPUは知能と調整を担う。88コアのオリンパスカスタムを搭載し、マルチスレッド技術により176スレッドを同時サポート。1.8 TB/sのNVLink C2C帯域幅と1.5 TBのシステムメモリ（(前世代比3倍)）により、基本的な操作のボトルネックを排除。2270億個のトランジスタを持ち、大規模な操作を調整するための処理能力を備える。

Rubin GPUは計算の中心であり、低精度推論で50 PFLOPSの性能を発揮し、Blackwellアーキテクチャの5倍の能力を持つ。3360億個のトランジスタを搭載し、モデルのニーズに応じて動的に精度を調整する第3世代Transformerエンジンを内蔵。

ConnectX-9ネットワークカードは、200G PAM4技術に基づく800 Gb/sの超高速Ethernet接続を提供。プログラム可能なRDMAやデータルートアクセラレータを備え、CNSAやFIPSのセキュリティ認証も取得している。

BlueField-4 DPUは次世代AIストレージ用の専用プロセッサとして登場。800 Gb/sのSmartNIC能力を持ち、64コアのGrace CPUとConnectX-9を組み合わせ、1260億個のトランジスタをこの重要な機能に投入。

NVLink-6スイッチチップは内部ネットワークのオーケストレーター。18ノードの計算機を接続し、72個のRubin GPUを一つの統合システムとして調整可能。NVLink 6アーキテクチャにより、各GPUは3.6 TB/sの全-to-全帯域幅を実現し、ネット内の超高速通信を可能にしている。

最後に、Spectrum-6光スイッチは512チャネル（各200Gbps）を管理し、従来の速度を超える伝送を実現。TSMCのCOOP技術を用いたシリコンフォトニクスで製造され、光インターコネクションにおいて3520億個のトランジスタを投入。

数字が語る：前例のない性能向上

この深い統合から生まれたNVL72システムは、新たな標準を打ち立てている。低精度推論タスクで3.6 EFLOPSを達成し、前世代の5倍の性能を示す。トレーニングでは2.5 EFLOPSに到達し、3.5倍の向上。

利用可能なメモリは3倍に増加：メインシステムのLPDDR5Xは54TB、ハイバンド幅HBMは20.7TB。HBM4の帯域幅は1.6 PB/s（(2.8倍向上)）、Scale-Upの帯域幅は260 TB/s（前世代の2倍）に達している。

最も注目すべきは、これらの性能向上がわずか1.7倍のトランジスタ増（(2.2兆個)）で実現された点であり、アーキテクチャの革新がシリコンの密度と同じくらい重要であることを示している。

デジタルから物理へ：次なるフロンティア

数字は印象的だが、その真のインパクトは応用にある。AIは今やデジタルの世界から物理の世界へと移行する必要がある。そのためには、3種類の統合コンピューティングが必要だ。

トレーニング用コンピュータはGB300のようなアーキテクチャで基盤モデルを生成。推論用コンピュータはロボットや自動運転車のリアルタイムで動作する「小脳」。シミュレーション用コンピュータはOmniverseやCosmosのようなプラットフォームを含み、AIが物理的なフィードバックを学習し、実世界での動作前に仮想環境で訓練を行う。

Alpamayo：推論を行う自律運転

この三重コンピュータアーキテクチャを基盤に、Alpamayoが登場。これは、真の推論能力を持つ最初の自律運転システムだ。従来のシステムは硬直した命令を実行するだけだったが、Alpamayoは人間の運転手のように推論できる。次に何をするか、なぜそう決めたのかを説明できる。

この技術を搭載したメルセデスCLAは、今年第1四半期に米国で正式に発売され、その後ヨーロッパやアジアにも展開予定だ。この車は、端から端までのAIシステムと従来の安全プロトコルを交互に切り替える「二重安全ピラーモデル」により、NCAPから世界最安全車と評価された。

ロボティクス：ヒューマノイドを超えて

戦略はヒューマノイドや四足歩行ロボットにも拡大している。すべてJetsonミニコンピュータとIsaacシミュレーターで訓練されている。産業用システムも、Synopsys、Cadence、Siemensのツールを用いて統合されている。

ジェンセン・ファンはプレゼン中に冗談を交えた：「最大のロボットは工場そのものだ。ロボットはコンピュータ上で設計され、製造され、さらには仮想的に試験・検証されてから、実際の重力に直面する」。

より広い文脈：10兆ドルの近代化

過去10年で、世界の計算インフラの約10兆ドルが完全に近代化されつつある。しかしこれは単なるハードウェアのアップグレードではない。ソフトウェアの開発と展開のパラダイムシフトを意味している。

DeepSeekのようなオープンモデルの台頭は、推論効率の高さで世界を驚かせ、革新の波を引き起こしている。これらのモデルは最先端から6ヶ月遅れることもあるが、半年ごとに新たな世代が登場し、競争力のある能力を持つ。

この高速なイテレーションは、スタートアップや巨大テック企業、研究者を常に動き続けさせている。オープンソースのNemotronモデルプラットフォームは、バイオ医療、物理的AI、エージェント、ロボティクス、自動運転などをカバーし、複数のランキングで上位に入り、さまざまな規模の企業に広く採用されている。

効率性の向上：トークン/ワットとドルあたりの性能

Vera Rubinは従来のモデルの2倍のエネルギーを消費するが、性能は圧倒的に向上している。重要な指標は、ワットとドルあたりの生成トークン数のスループットであり、10倍の向上を示す。

1 GWのデータセンターにとって、Spectrum-Xはスループットを25%向上させ、インフラコストを50億ドル節約できる。経営者は「このネットワークシステムはほぼ無料だ」と語る。

KVキャッシュの解決：生成AIの最大の課題

業界の最大の課題は「KVキャッシュ」、長い会話中にAIが消費する作業用メモリだ。モデルが大きくなるにつれ、会話が長くなるとHBMの利用可能容量が枯渇する。

Vera Rubinは、各ラック内にBlueField-4プロセッサを展開することでこれを解決。各ノードには4つのBlueField-4を搭載し、GPU間に150TBの分散コンテキストメモリを提供。各GPUには16TBの追加メモリと200Gbpsの帯域幅を確保し、数千のGPUが数十ラックに分散しながらも、一つの一貫したメモリとして機能させている。