CursorがMoE推論最適化技術Warp Decodeを公開、Blackwell GPUでスループットが1.84倍向上

BlockBeatNews

1M AIニュースのモニタリングによると、AIプログラミングツールのCursorが技術ブログを公開し、自社開発のMoE(ミクスド・エキスパート・モデル)推論の高速化手法であるWarp Decodeを紹介した。この手法は、NVIDIA Blackwell GPU上での小バッチのtoken生成シナリオを対象としており、従来の「エキスパート中心」の並列戦略を「出力中心」へと反転させる。GPU内の各warp(32の並列処理ユニットで構成される最小のスケジューリング単位)は、出力値を1つ計算するだけに責務を絞り、ルーティングされたすべてのエキスパートを独立して走査し、レジスタ上で加算を完了する。warp間の同期や中間バッファは不要。

従来のMoE推論パイプラインは全8段階で構成され、そのうち5段階はエキスパートのビューへデータを運ぶためのもので、実際の計算は行わない。Warp Decodeは、MoE計算層全体を2つのCUDA kernelに圧縮し、パディング、分散、マージなどの中間ステップを省略した。各tokenあたり、32KB超の中間バッファの読み書きを削減する。

NVIDIA B200 GPU上で、Qwen-3スタイルのモデルで実測したところ、Warp Decodeによりエンドツーエンドのデコードスループットが1.84倍に向上した。さらに、全工程でBF16/FP32の精度計算を行い、中間の量子化による損失を回避したことで、出力精度は従来経路に比べてFP32基準値の1.4倍に近づいた。ハードウェア帯域の利用効率については、バッチサイズが32のときの継続スループットが3.95 TB/sで、B200のピーク帯域(6.8 TB/s)の58%に相当する。この最適化は、Cursorの自社開発プログラミングモデルComposerの研究開発の反復と、バージョンリリースの進行スピードを直接加速させた。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし