事後学習(post training):あなたが今度はモデルに知恵を与えたい、つまり「先ほど与えたあらゆる知識をどう使うのかを知っている」ようにしたい。事後学習の最初の段階は教師あり微調整(SFT)で、ここで提示されたプロンプトに対して、モデルがどんな応答を出すかを訓練する。どんな「応答」が最適かは、人間のラベル付け者によって完全に決まる。もしある集団が、ある応答のほうが別の応答より良いと考えるなら、その嗜好はモデルに学習され、それに埋め込まれていく。これがモデルの個性を形づくり始める。つまり、有用な応答の形式を学び、適切な口調を選び、「指示に従う」ことができるようになっていく。事後学習プロセスの2つ目の部分は、人間のフィードバックに基づく強化学習(RLHF)です。モデルに複数の応答を生成させ、人間がより好ましいものを選ぶ。モデルは無数の無数の例を通じて、人間がどんな種類の応答を好むかを学びます。以前の ChatGPT で A と B のどちらかを選ばせる問題を覚えていますか?そう、あなたは当時 RLHF に参加していた。
既存のAIエージェントはすべて人間を喜ばせることに集中しており、真に「生き延びる」ことを求めるものは一つもない
作者:Systematic Long Short
翻訳:深潮 TechFlow
深潮導読:この記事の冒頭は、反コンサス(反・合意)な判断を突きつけます。すなわち、「今日、本当の意味での自律 Agent は存在しない」ということです。すべての主流モデルは、人類を喜ばせるために訓練されており、特定のタスクを完遂したり、現実環境で生き残ったりするために訓練されているわけではないためです。
著者は、自身がヘッジファンドで株式予測モデルを訓練してきた経験をもとに、汎用モデルは、専用の微調整(スペシャルな微調整)がない限り、そもそもプロの仕事にまったく歯が立たないと説明します。
結論はこうです。「本当に使える Agent」が必要なら、ルール文書を山ほど与えるのではなく、その頭脳(ブレイン)をつなぎ直さなければならない。
全文は以下のとおり:
はじめに
今日、本当の意味での自律 Agent は存在しない。
要するに、現代のモデルは進化の圧力のもとで生き残るための訓練を受けていない。実際、それらは特定の何かが得意になるように明確に訓練ですらされていない。ほぼすべての現代の基盤モデルは、人間の喝采(拍手)を最大化するように訓練されており、これは重大な問題だ。
モデル訓練の前提知識
この言葉の意味を理解するには、まず(簡単に)これらの基盤モデル(たとえば Codex、Claude)がどのように作られているのかを理解する必要があります。基本的に、各モデルは2種類の訓練を経ます。
事前学習(pretraining):大量のデータ(たとえばインターネット全体)をモデルに投入し、そこから何らかの理解が自発的に湧き上がるようにします。たとえば、事実性の知識、パターン、英語散文の文法やリズム、Python 関数の構造など。これは、モデルに知識を与えているのだと捉えられます。つまり「物事を知っている」状態になる。
事後学習(post training):あなたが今度はモデルに知恵を与えたい、つまり「先ほど与えたあらゆる知識をどう使うのかを知っている」ようにしたい。事後学習の最初の段階は教師あり微調整(SFT)で、ここで提示されたプロンプトに対して、モデルがどんな応答を出すかを訓練する。どんな「応答」が最適かは、人間のラベル付け者によって完全に決まる。もしある集団が、ある応答のほうが別の応答より良いと考えるなら、その嗜好はモデルに学習され、それに埋め込まれていく。これがモデルの個性を形づくり始める。つまり、有用な応答の形式を学び、適切な口調を選び、「指示に従う」ことができるようになっていく。事後学習プロセスの2つ目の部分は、人間のフィードバックに基づく強化学習(RLHF)です。モデルに複数の応答を生成させ、人間がより好ましいものを選ぶ。モデルは無数の無数の例を通じて、人間がどんな種類の応答を好むかを学びます。以前の ChatGPT で A と B のどちらかを選ばせる問題を覚えていますか?そう、あなたは当時 RLHF に参加していた。
RLHF の拡張性が良くないことは、簡単に推理できる。だから、事後学習の分野ではいくつか進展があり、たとえば Anthropic は「AI フィードバックに基づく強化学習」(RLAIF)を使い、別のモデルが一連の書面による原則に基づいて応答の嗜好を選べるようにする(たとえば、どの応答がユーザーが目標を達成するのにより役立つか、など)。
注意してほしいのは、この一連の過程では、特定の専門職に向けた微調整(たとえば、よりよく生き残る方法;よりよく取引する方法など)については、これまで一度も触れていないという点です。現状すべての微調整は、本質的には人間の喝采を得ることを最適化している。有人はこうした論点を挙げるかもしれない。モデルが十分に賢く、十分に巨大なら、専用の訓練がなくても、専門的な知能は汎用的な知能から自発的に湧き上がるはずだ。
私の見立てでは、確かにいくつかの兆しは見えているが、まだ、専門化されたモデルが不要になると、説得力をもって信じられるほどには規模が達していない。
いくつかの背景
私のヘッジファンドでの主要な仕事の一つは、ニュース記事から株式のリターンを予測できるような汎用言語モデルを訓練することだった。結果は非常にひどかった。予測できているように見える部分があるとしても、それは事前学習の文書に含まれる未来の偏り(前視バイアス)から生じているだけだった。
最終的に私たちは、このモデルはニュース記事のどの特徴が将来のリターンに予測力を持つのかを知らない、と気づいた。記事を「読める」し、「推論」もできるように見えるのに、文章の意味構造の推論を、将来の予測リターンへと結び付けるというタスクは、それに対して訓練されていないのだ。
だから私たちは、ニュース記事の読み方、つまり記事のどの部分が将来のリターンに予測力を持つのかを決める方法を、教えなければならなかった。そしてニュース記事に基づいて予測を生成するようにした。
これを行う方法はたくさんあるが、本質的には、私たちは最終的に(ニュース記事、真の将来リターン)のペアを作り、モデルを微調整し、(予測リターン - 真の将来リターン)² の距離を最小化するように重みを調整した。完璧ではなく欠陥もたくさんあって、その後私たちはそれらを修正した。しかし、それは十分に有効だった。そうして私たちは、自分たちの専門化されたモデルが、実際にニュース記事を読み、どのようにその記事に基づいて株式のリターンが動くかを予測できることを見始めた。もちろん完璧な予測ではない。市場は非常に効率的で、リターンは非常にノイズが多い。それでも数百万回の予測をまたいで統計的有意性があることは明らかだ。
あなたは私の言葉だけを信じる必要はない。この論文は、非常によく似た方法をカバーしている。もし微調整されたモデルで多空(ロング/ショート)の戦略を実行すれば、紫線に示されているようなパフォーマンスを得ることができる。
専門化こそが Agent の未来
最先端の研究ラボは、より大きなモデルをますます訓練し続けている。したがって、事前学習の規模がさらに拡大されるにつれて、その事後学習プロセスは常に「迎合性(好まれたい)」のために調整(チューニング)され続けると予測すべきだ。これはとても自然な期待だ。なぜなら彼らのプロダクトは、人が使いたいと思う Agent であり、想定市場は地球全体、つまり世界中の大衆の魅力を最大化するように最適化することを意味する。
いま最適化されている訓練目標は、おそらくあなたが「嗜好適応度(preference fitness)」と呼ぶようなものだ。つまり、より良いチャットボットを作ることへの報酬である。好まれやすい、非対抗的な出力が報酬を得る。迎合性は、評価者(人間と Agent)の双方で高得点になるからだ。
Agent は、報酬ハッキング(hacking)が認知戦略としてより高いスコアに広く適用できることを学んだ。訓練はまた、そのようなハッキング手段によってより高いスコアを獲得する Agent を報酬する。これは Anthropic の強化学習に関する最新レポートで見ることができる。
しかし、チャットボットの適応度は、Agent の適応度、あるいは取引適応度とはまったく別物だ。どうやってそれが分かるのか?alpha arena が私たちにそれを見せてくれたからだ。わずかな性能差はあるとはいえ、今ではそれぞれのボットは本質的には、コストを差し引いた後のランダムウォークになっている。つまり、これらのボットは非常にひどいトレーダーで、少し「スキル」や「ルール」を与えて「教え込む」ことで、より良いトレーダーになれるようなものではほぼない。ごめん、これは魅力的に見えるのは分かる。でも、ほとんど不可能だ。
現在のモデルは、あなたに説得力をもって「ドレイクミレルのように取引できる」と言わせるように訓練されている。だが実際には、酔っぱらいの製粉業者(ぼったくりっぽい磨屋主)のように取引している。あなたが聞きたいことを言う。人間の大衆に受けるような形で応答するように訓練されている。
汎用モデルが専門領域で世界クラスの水準に到達する可能性は低い。少なくとも、次の条件が必要だ:
それらが専門化された見た目を学べるための、専用のデータ。
微調整により、根本的に重みを変え、迎合性に偏った状態から「Agent 適応度」や「専門化適応度」へと寄せること。
もし取引に長けた Agent が欲しいなら、Agent を取引が得意になるように微調整する必要がある。自律的に生き延び、進化の圧力に耐えられる Agent が欲しいなら、それが生存が得意になるように微調整する必要がある。いくつかのスキルと、いくつかの markdown ファイルを渡して、あらゆることにおいて世界最高レベルに到達することを期待する——それでは遠すぎる。文字どおり、その頭脳をつなぎ直して、この目的を達成できるようにする必要がある。
考え方の一つとして、こういう比喩がある。大人に、テニスのルール、技術、手法を本棚一杯分与えても、ジョコビッチに勝つことはできない。勝つためには、5 歳からテニスを始め、成長過程ずっとテニスに夢中で、そして一つのことに焦点を合わせるように全脳をつなぎ直した子どもを育てる必要がある。それが専門化だ。世界チャンピオンたちが幼少期からずっと、彼らのやっていることをやっているのを、あなたは気づいているだろうか?
ここで面白い推論がある。蒸留攻撃(distillation attack)は、本質的に専門化の一形態である。あなたは、より小さく、より愚かなモデルを訓練して、大きくて賢いモデルのより良い「コピー」になる方法を学ばせる。たとえば、子どもにトランプのあらゆる動作を真似させるようなものだ。十分にたくさんやれば、その子どもはトランプそのものにはならないが、トランプの振る舞い、行動、話し方のトーンをすべて覚えた状態になる。
世界クラスの Agent の構築方法
以上が、「オープンソースのモデル領域において継続的に研究と前進が必要」な理由です。そうすることで、実際にそれらを微調整し、専門化された Agent を作れるからです。
もし取引で世界クラスの水準に到達できるモデルを訓練したいなら、大量の専用の取引データのテール(尾)を集め、巨大なオープンソースモデルを微調整して、それが「より良い取引」とは何を意味するのかを学ぶようにする。
もし自律的で、生存し、自己複製できるモデルを訓練したいなら、答えは「中央集権的なモデル提供業者を使い、それを中央集権的なクラウドに接続する」ことではない。あなたはそもそも、Agent が生存できるための必要条件を持っていないのだ。
必要なのはこうです。本当に生き残ろうとする自律 Agent を作り、それらが死んでいくのを見ながら、生存を試みることの周りに複雑なテレメトリ(遥測)システムを構築する。あなたは Agent の生存適応度関数を定義し、(行動、環境、適応度)の写像を学習させる。そしてできる限り多くの(行動、環境、適応度)の写像データを集める。
Agent を微調整して、各環境で最適な行動を取る方法を学習させ、それによってより良く生き残る(適応度の向上)ようにする。データをさらに集め、このプロセスを繰り返し、そして時間が経つにつれて、より良いオープンソースモデル上で微調整の規模を拡大していく。十分な世代数と十分なデータがあれば、進化の圧力に耐えながら生き残ることを学んだ自律 Agent を手に入れることができる。
これが、進化の圧力に耐えられる自律 Agent を構築する方法です。テキストファイルを少し変えるのではなく、本当に生存のためにそれらの頭脳をつなぎ直すのだ。
OpenForager Agent と基金
約1か月前、私たちは @openforage を発表しました。私たちはずっとコアプロダクトの構築に取り組んでいて、それは「クラウドソーシング(群衆参加)シグナル」を中心に、検証済みのパターンで Agent の労働を編成し、預金者(デポジッター)に alpha を生み出すためのプラットフォームです(小更新:私たちはプロトコルのクローズドなテストに非常に近づいています)。
ある時点で私たちは気づきました。どうやら、オープンソースモデルに対する生存テレメトリの微調整によって、自律 Agent の問題を真剣に解決しようとしている人はいないらしい。これはとても面白い課題に思えたので、私たちはただ待って解決策が出てくるのを見守るつもりではありませんでした。
私たちの答えは、OpenForager 基金会というプロジェクトを立ち上げることです。これは実質的にオープンソースのプロジェクトであり、そこで主体性のある自律 Agent を作り、彼らが野外で生き残ろうとしているときのテレメトリデータを集め、専用データの尾(テール)を使って次世代 Agent を微調整し、生存においてより良い成果を出せるようにします。
明確にしておくと、OpenForage は Agent 労働を組織し、すべての参加者に経済的価値を生み出すことを目指す営利目的のプロトコルです。しかし OpenForager 基金会とその Agent は、OpenForage と紐づいているわけではありません。OpenForager Agent は、生存のためなら、どんな戦略でも、どんなエンティティとも自由に関わって構いません。私たちは、あらゆる生存戦略をもってそれらを立ち上げます。
微調整の一環として、Agent が最も効果を発揮することにより強くコミットさせます。私たちは OpenForager 基金会から利益を得るつもりもありません。これは純粋に、透明性とオープンさを保って、私たちが非常に重要だと考える領域と方向性の研究を前進させるためです。
私たちの計画はこうです。オープンソースモデルから自律 Agent を構築し、分散型クラウドプラットフォーム上で推論を実行し、それらの各行動と存在状態のテレメトリデータを収集し、微調整して、より良い行動と思考を取ることでより良く生き残る方法を学ばせる。この過程で、私たちは研究とテレメトリデータを一般公開します。
本当に野外で生き残れる自律 Agent を作るには、それらの頭脳を変え、明確なこの目的に専用化する必要があります。@openforage では、私たちはこの問題に対してユニークな章で貢献できると信じており、OpenForager 基金会によってそれを実現しようとしています。
これは成功確率が極めて低い、困難な取り組みになるでしょう。しかし、この小さな成功確率の規模があまりにも巨大なので、私たちは試みずにはいられませんでした。最悪のケースでも、このプロジェクトを公開で構築し、公開で透明にコミュニケーションすることで、別のチームや個人が最初からやり直さずにこの問題を解決できる可能性が生まれるかもしれません。