カリフォルニア大学バークレー校の研究チームが新しいAIトレーニング手法GEPAを提案し、ICLR 2026にOral論文として受理された。GEPAはモデルの重みを更新せず、GPUによる訓練も不要で、「学習ログを読み取る」LLMを使ってAIシステムのプロンプトを反復的に書き換えるだけで、6つのタスクにおいて平均的に主流の強化学習手法GRPOに対して6%上回り、最高で20%勝ち、必要な訓練試行回数(rollouts)も35倍少ない。研究がAIエンジニアリングコミュニティで拡散され、Xプラットフォーム上で議論を呼んだのち、現在はDSPyに統合されて一次最適化器(一等優化器)になっている。
GEPAは何をするのか:学習ログを教材として扱い、スコアだけを見ない
従来の強化学習手法(例:GRPO)のワークフローは次のとおりだ。AIに一度タスクを実行させ、その結果に基づいて「+1か-1」のスコアを与え、そのスコアを用いてモデルの重みを反復調整する。問題は、AIがこの一度のタスクを実行する過程には通常、数千tokenに及ぶ推論ステップ、ツール呼び出し、エラー情報が含まれていることだ。こうした豊富な詳細はすべて1つのスコアに圧縮され、過程の情報が捨てられる。だからこそ、RLは収束するまでに何万回もの試行が必要になる。
GEPAは逆だ。毎回AIがタスクを走り終えたら、その一連の過程(reasoning、ツール呼び出し、エラー記録)をそのまま別の「反省LLM」に読み込ませる。反省LLMは、熟練したエンジニアがプログラムのログを読むのと同じように、どのステップで失敗したのか、なぜ失敗したのか、そしてプロンプトをどう修正すべきかを見つけ、その後に該当モジュールのプロンプトを直接書き換える。同様に一度だけタスクを実行するが、GEPAがそこから抽出する信号量は、RLの単一スコアよりはるかに多い。
なぜ勝てるのか:「採点」を「一連の過程の読み取り」に変えるから
GEPAは6つのタスクで平均してGRPOに対し6%上回り、最高で20%勝つ。別の主流なプロンプト最適化器MIPROv2とも比較すると、10%以上上回っている(AIME-2025の数学問題ベンチマークで12%向上)。最も重要なのは訓練コストだ。GEPAは同等の性能に到達するために必要なrollouts(1回のタスク完全実行)が、35倍少ない。
もう一つのデータとして、GEPAがDSPyと統合された後の「Full Program Adapter」は、signature、モジュール、制御フローを含むDSPy全体のプログラムを最適化でき、MATHの数学ベンチマークで93%の精度を達成し、DSPy本来のChainOfThoughtの書き方の67%を大きく上回る。GEPAはmulti-moduleワークフロー(複数モジュールを直列に接続するAIエージェント)でも特に優れており、システム全体を調整するのではなく、特定の失敗しているモジュールをピンポイントで特定して、そのプロンプトを書き換えられる。
誰が最初に使うのか:DSPyの一等市民、GitHubでオープンソース
GEPAのコードはGitHubで公開されており、dspy.GEPAの形でDSPyフレームワークに統合されると同時に、Pythonライブラリとして独立して公開されている。研究チームはUC Berkeley、Stanford、Notre Dame、Anthropicなどの機関にまたがり、論文の著者にはMatei Zaharia(Databricks共同創業者、DSPyの主要著者)とOmar Khattab(DSPyの主要著者)が含まれる。
開発者コミュニティにとってGEPAは、「大量のrolloutはあるが、どう活用すればいいか分からない」という新しい解決策を提供する。多くのチームはすでに、エージェントがタスクを実行した記録を数千件〜数万件単位で蓄積しているが、失敗したときに数件をめくってバグを探す以外に、それらの記録をモデル改善に体系的に変換する方法がない。次の注目点は、GEPAが企業のエージェント型ワークフロー(例:カスタマーサポート自動化、プログラム自動修復)で実際に導入されるケースと、DSPy以外のフレームワークでのGEPAに対応する実装が現れるかどうかだ。
この記事「Berkeley GEPA解説:重みを更新しないのにAIが新しいタスクを学べ、35倍少ない訓練コストでRLに勝つ」が最初に現れたのは、鎖新聞のABMedia。
関連記事
MoonPayはMastercardネットワーク上でAIエージェント向けMoonAgentsカードをローンチします
MoonPayが金曜に「MoonAgents Card」を提供開始、AIエージェントとユーザー向けのバーチャルMastercard
MoonPayは金曜日、MastercardネットワークでMoonAgentsカードをローンチします