動察 Beating 監測によると、 Xiaomi 大規模モデルチームの責任者ロ・フーリーは、大規模モデルの競争は事前学習主導の Chat 時代から、後訓練(Post-train)主導のエージェント時代へと全面的に移行していると指摘した。 現在の核心的な焦点は「エージェント上で強化学習(RL)のスケーリングをいかに行うか」である。このパラダイムシフトは、計算能力の配分の再構築を直接引き起こしている。ロ・フーリーは、Chat 時代には研究、事前学習、後訓練に使われる計算能力の比率がおよそ3:5:1であったと明らかにした。一方、現在のエージェント時代では、合理的な計算能力の配分比率は3:1:1に変わり、事前学習と後訓練の計算投入はほぼ同等となっている。現在、トップレベルのモデルチームはこれら二つの投入比率を1:1にまで高めている。同時に、システムアーキテクチャの要求も大きく変化している。過去のRL基盤は主に「モデル推論エンジン」を中心としており、純粋なテキスト演算を処理していた。今の基盤は「エージェント」を中心とし、異種クラスターのスケジューリングをサポートし、複雑なワークフローの中でさまざまな制御不能な要因による中断の曖昧さを許容できる必要がある。
ロフリー:大規模モデルは後訓練時代に入り、トップチームの事前訓練と後訓練の計算能力比は1:1になった
動察 Beating 監測によると、 Xiaomi 大規模モデルチームの責任者ロ・フーリーは、大規模モデルの競争は事前学習主導の Chat 時代から、後訓練(Post-train)主導のエージェント時代へと全面的に移行していると指摘した。 現在の核心的な焦点は「エージェント上で強化学習(RL)のスケーリングをいかに行うか」である。
このパラダイムシフトは、計算能力の配分の再構築を直接引き起こしている。ロ・フーリーは、Chat 時代には研究、事前学習、後訓練に使われる計算能力の比率がおよそ3:5:1であったと明らかにした。一方、現在のエージェント時代では、合理的な計算能力の配分比率は3:1:1に変わり、事前学習と後訓練の計算投入はほぼ同等となっている。現在、トップレベルのモデルチームはこれら二つの投入比率を1:1にまで高めている。
同時に、システムアーキテクチャの要求も大きく変化している。過去のRL基盤は主に「モデル推論エンジン」を中心としており、純粋なテキスト演算を処理していた。今の基盤は「エージェント」を中心とし、異種クラスターのスケジューリングをサポートし、複雑なワークフローの中でさまざまな制御不能な要因による中断の曖昧さを許容できる必要がある。