タイトル:物理世界のフロンティアシステム著者:Oliver Hsu出典:転載:火星财经深潮ガイド: この記事はa16zの研究員Oliver Hsuによるもので、2026年以来最も体系的な「物理AI」投資マップです。彼の判断は:言語/コードの主線は依然としてスケーリングを続けているが、次世代の破壊的能力を実現できるのは、その主線に隣接する3つの領域――汎用ロボット、自律科学(AI科学者)、脳-機インターフェースなどの新型人機インターフェースである、というものです。著者はそれらを支える5つの基盤能力を解剖し、これら3つの戦線が相互に喚起し合う構造的なフイールを形成すると論証しています。物理AIの投資ロジックを見極めたい人にとって、これは最も包括的なフレームワークです。今日のAIを支配するパラダイムは、言語とコードを中心に構成されています。大規模言語モデルのスケーリング法則はすでに明確に描かれ、データ、計算能力、アルゴリズムの改良による商業的な飛輪が回り続けており、能力の向上ごとに得られるリターンは依然として大きく、その多くは目に見えるものです。このパラダイムは、その資本と注目を十分に吸収するに値します。しかし、隣接する別の領域群はすでに実質的な進展を孕んでいます。これにはVLA(視覚-言語-動作モデル)、WAM(世界動作モデル)などの汎用ロボット路線、「AI科学者」を中心とした物理・科学推論、そしてAIの進展を利用した新型人機インターフェース(脳-機インターフェースや神経科学技術を含む)が含まれます。これらの方向性は、技術そのものだけでなく、人材、資本、創業者も引きつけ始めています。最先端のAIを物理世界に拡張するための技術原語は同時に成熟しつつあり、過去18ヶ月の進展は、これらの領域がまもなくそれぞれのスケーリング段階に入ることを示しています。どの技術パラダイムにおいても、現時点の能力と中期的な潜在能力の差(デルタ)が最大となる場所には、2つの特徴があります:一つは、現在の最先端を推進するスケーリングの恩恵を享受できること、もう一つは、主流パラダイムから一歩離れていること――それは、基盤インフラや研究動力を継承できるほど近い一方、実質的な追加作業を必要とする遠さです。この距離自体には二重の役割があります:一つは、迅速な追随者に対する自然な堀を形成し、もう一つは、情報が希薄で混雑しにくい問題空間を定義し、新たな能力の出現を促進する可能性を高めることです――ちょうど、ショートカットが未完のままであるためです。今日、この条件に合致するのは3つの領域です:ロボット学習、自律科学(特に材料科学と生命科学分野)、そして新型人機インターフェース(脳-機インターフェース、無声音声、神経ウェアラブル、デジタル嗅覚のような新感覚チャネルを含む)。これらは完全に独立しているわけではなく、「物理世界の最前線システム」という同じテーマに属します。これらは共通の底層原語を共有しています:物理動力学の学習表現、具身動作向けのアーキテクチャ、シミュレーションと合成データのインフラ、拡張し続ける感覚チャネル、そして閉ループのエージェント編成です。これらはクロスドメインのフィードバック関係の中で互いに強化し合います。これらはまた、モデルの規模、物理的実現、新しいデータ形態の3つの相互作用によって質的変化をもたらす最も可能性の高い場所でもあります。本稿では、これらのシステムを支える技術原語を整理し、なぜこれら3つの領域が最先端の機会を代表するのかを示し、それらの相互強化が構造的なフイールを形成し、AIを物理世界へと推進していることを提案します。五つの基盤原語具体的な応用に入る前に、これらの最前線システムが共有する技術基盤を理解しましょう。物理世界にAIを推進するには、五つの主要な原語に頼っています。これらの技術は特定の応用分野に限定されず、「AIを物理世界に拡張する」システムを構築するための構成要素です。それらの同期した成熟が、今この瞬間を特別なものにしています。原語一:物理動力学の学習表現最も根本的な原語は、圧縮された汎用的な物理世界の行動表現を学び出すことです――物体の運動、変形、衝突、受力に対する反応。これがなければ、各物理AIシステムはゼロから自分の領域の物理法則を学習しなければならず、そのコストは誰も負担できません。いくつかのアーキテクチャ派閥が異なるアプローチでこの目標に迫っています。VLAモデルは上層からアプローチ:事前学習済みの視覚-言語モデル――物体や空間関係、言語の意味理解を既に備えたモデル――に動作デコーダを付加し、運動制御指令を出力します。ポイントは、「見る」ことと「世界を理解する」ことの巨大なコストを、インターネット規模の画像・文章の事前学習によって薄められることです。Physical Intelligenceのπ₀、Google DeepMindのGemini Robotics、NVIDIAのGR00T N1は、より大規模なスケールでこのアーキテクチャを検証しています。WAMモデルは下層からアプローチ:インターネット規模の動画上で事前学習された動画拡散トランスフォーマーに基づき、物理動力学に関する豊富な先験(物体の落下、遮蔽、受力後の相互作用)を継承し、それらを動作生成と結びつけます。NVIDIAのDreamZeroは、新規タスクや環境に対してゼロショットの汎化を示し、少量の適応データから人間の動画デモを用いたクロスオブジェクトの移行を実現し、実世界への汎化能力を有意に向上させました。3つ目のルートは、未来の方向性を最も示唆するもので、事前学習済みVLMと動画拡散の骨格を完全にスキップします。GeneralistのGEN-1は、ゼロから訓練された具身基礎モデルで、訓練データは50万時間超の実物理的インタラクションデータで、主に低コストのウェアラブルデバイスから日常作業を行う人々の行動を収集しています。これは標準的なVLA(視覚-言語の骨格を微調整していない)でもなく、WAMでもありません。物理的相互作用に特化した基礎モデルであり、インターネットの画像やテキスト、動画の統計規則を学習するのではなく、人と物体の接触の統計規則を学びます。World Labsのような空間知能を追求する企業にとって、この原語は価値があります。なぜなら、それはVLA、WAM、原生具身モデルの共通の短所――シーンの三次元構造を明示的にモデル化していない点――を補完するからです。VLAは画像・文章の事前学習による2D視覚特徴を継承し、WAMは動画から動力学を学び、動画自体は3Dの2D投影です。ウェアラセンサーから学習したモデルは力と運動学を捉えますが、シーンの幾何学は捉えられません。空間知能モデルはこれを補完し、物理環境の完全な3D構造を再構築・生成し、それに対して幾何、照明、遮蔽、物体関係、空間配置を推論します。これらのルートの収束自体が重要です。表現がVLM由来、動画協調学習由来、または物理的相互作用データから原生的に構築されたものであれ、基盤原語は同じです:圧縮された、移行可能な物理世界の行動モデル。これらの表現が取り込むデータの飛輪は非常に巨大で、まだほとんど動いていません――インターネット動画やロボットの軌跡だけでなく、ウェアラブルデバイスによる大量の人間の身体経験データも含まれます。同じ表現は、毛巾を折るロボットにも、自律実験室の反応予測にも、運動皮質の握り動作意図を解読する神経デコーダーにも役立ちます。原語二:具身動作向けのアーキテクチャ物理表現だけでは不十分です。「理解」を信頼できる物理的動作に翻訳するには、いくつかの相互に関連する問題を解決するアーキテクチャが必要です:高層の意図を連続的な動作指令にマッピング、長い動作列での一貫性維持、リアルタイム遅延下での運用、経験に基づく継続的な改善。二層のシステムアーキテクチャは複雑な具身タスクの標準設計となっています:遅くて強力な視覚-言語モデルがシーン理解とタスク推論(System 2)を担当し、素早く軽量な視覚-運動戦略がリアルタイム制御(System 1)を担います。GR00T N1、Gemini Robotics、FigureのHelixはこのアプローチの変種を採用し、「大モデルによる豊富な推論」と「ミリ秒級の制御周波数を要求する物理タスク」の根本的な緊張を解決しています。Generalistは別の道を歩み、「共振推論」により思考と動作を同時に行います。動作生成メカニズムも急速に進化しています。π₀が開拓した流れのマッチングと拡散に基づく動作ヘッドは、滑らかで高頻度の連続動作を生成する主流の方法となり、言語モデル由来の離散トークン化に取って代わっています。これらの方法は、画像合成に似たノイズ除去過程として動作生成を扱い、物理的により滑らかで誤差蓄積に対して堅牢な軌跡を産み出し、自回帰的トークン予測より優れています。しかし、アーキテクチャの面で最も重要な進展は、強化学習を事前学習済みVLAに拡張したことです――示範データ上で訓練された基盤モデルが、自律的な練習を通じて継続的に向上できる仕組みです。Physical Intelligenceのπ\*₀.₆は、この原則の最も明確なスケールアップ例です。彼らの手法はRECAP(優位条件戦略に基づく経験と修正を用いた強化学習)と呼ばれ、模倣学習だけでは解決できない長いシーケンスの信用割り当て問題を解決します。ロボットが少し斜めの角度でコーヒーマシンのハンドルを掴んだ場合、失敗はすぐには起きず、何歩か進んだ後に露呈します。模倣学習にはこの失敗を早期に遡って原因を特定する仕組みがなく、RLにはあります。RECAPは価値関数を訓練し、任意の中間状態から成功確率を推定し、VLAに高優位性の動作を選ばせます。重要なのは、多種多様なデータ――デモンストレーション、戦略の自主経験、遠隔操作による修正――を同じ訓練パイプラインに統合している点です。この方法は、動作分野におけるRLの未来にとって良い知らせです。π\*₀.₆は、実家庭環境で未見の衣類50種類を連続的に折りたたみ、段ボールを確実に組み立て、専門機械でエスプレッソを作り続け、数時間の連続運用を人の介入なしで実現しています。最も難しいタスクでは、RECAPは純粋模倣の基準に比べてスループットを2倍以上にし、失敗率も半減させました。このシステムはまた、RL後の訓練によって、より滑らかな回復動作や効率的な掴み戦略、模範データに存在しない適応的な誤り訂正を生み出すことも証明しています。これらの成果は一つのことを示しています:GPT-2からGPT-4へのスケーリング動力は、具身領域でも動き始めている――ただし、今は曲線の早い段階にあり、動作空間は連続的で高次元、そして物理世界の無情な制約に直面しています。原語三:スケーリング基盤のシミュレーションと合成データ言語分野では、データ問題はインターネットによって解決されました:自然に生成され、無料で得られる兆単位のトークンテキストです。一方、物理世界の問題は数桁上の難しさがあります――これも共通認識となっており、最も直接的な兆候は、物理世界のデータ供給企業が急増していることです。実世界のロボット軌跡の収集コストは高く、規模化にはリスクが伴い、多様性も限定的です。言語モデルは10億回の対話から学習できますが、ロボットは(現状では)10億回の物理インタラクションを持てません。シミュレーションと合成データ生成は、この制約を解決するための基盤インフラです。これらの成熟は、物理AIが今日に至る加速の一因です。現代のシミュレーションスタックは、物理ベースのシミュレータ、光線追跡によるフォトリアルレンダリング、プログラム的環境生成、そしてシミュレーション入力からフォトリアル動画を生成する世界基盤モデルを組み合わせています――後者はsim-to-realのギャップを埋める役割を果たします。全体のパイプラインは、リアル環境の神経再構築(スマホ一台で可能)から始まり、物理的に正確な3D資産の充填、そして自動アノテーション付きの大規模合成データ生成へと進みます。このシミュレーションスタックの改良は、その経済的仮定を変えつつあります。物理AIのボトルネックが「実データ収集」から「多様な仮想環境の設計」へとシフトすれば、コスト曲線は崩壊します。シミュレーションは計算能力の拡張に伴い、人手やハードウェアに依存しません。これは、訓練インフラへの投資が、言語モデルのためのインフラ投資と同じ性質を持つことを意味し、エコシステム全体のレバレッジを大きくします。ただし、シミュレーションはロボット原語だけではありません。同じインフラは、自律科学(実験室のデジタルツインや仮想反応環境)、新型インターフェース(BCIの仮想神経環境や新センサーの合成感覚データ)、その他のAIと物理世界のインタラクション分野にも応用されます。シミュレーションは、物理世界AIの汎用データエンジンです。原語四:拡張感覚チャネル物理世界から伝達される情報の信号は、視覚や言語よりもはるかに豊富です。触覚は材料の属性、掴みの安定性、接触の幾何学など、カメラでは捉えきれない情報を伝えます。神経信号は、既存の人機インターフェースをはるかに超える帯域幅で運動意図、認知状態、感覚経験を符号化します。声帯の筋肉活動は、音声生成の前に言語意図を符号化します。第4の原語は、これらの従来捉えにくかった感覚モダリティに対するAIの高速拡張です――研究だけでなく、消費者向けデバイスやソフトウェア、インフラのエコシステムも含みます。最も直感的な指標は、新規カテゴリのデバイスの登場です。ARデバイスは近年、体験と形態の両面で大きく改善されており(すでに消費や産業用途に展開)、音声優先のAIウェアラブルは言語AIにより豊かな物理環境の文脈をもたらしています――これらは本当にユーザーとともに物理環境に入り込みます。長期的には、神経インターフェースはより完全なインタラクションモダリティを開き得ます。AIによる計算方式の変化は、人機インタラクションを大きく進化させる機会を創出し、Sesameのような企業は新たなモダリティとデバイスを開発しています。音声はより主流のモダリティとして、新たなインタラクション手法に追い風をもたらします。Wispr Flowのような製品は、音声を主要な入力方式に推進しています(情報密度が高く、自然な優位性を持つため)、無声音声インターフェースの市場も改善しています。無声音声デバイスは、舌や声帯の動きを多種のセンサーで捉え、言語を無声で認識します――これは、音声よりも情報密度の高い人機インタラクションモダリティです。脳-機インターフェース(侵襲的・非侵襲的)は、より深い最前線を代表します。Neuralinkはすでに複数の患者に埋め込み、手術ロボットとデコードソフトウェアが進化しています。Synchronの血管内Stentrodeは、麻痺患者がデジタルや物理環境を制御できるようにしています。Echo Neurotechnologiesは、言語回復用のBCIシステムを開発中で、高解像度の皮質音声デコードの研究に基づいています。Nudgeのような新興企業も、神経インターフェースと脳インタラクションプラットフォームの開発に資源を投入しています。研究面では、BISCチップは65536電極の無線神経記録を実現し、BrainGateは運動皮質から内部言語を直接デコードしています。AR眼鏡、AIウェアラブル、無声音声デバイス、埋め込み型BCIの主軸は、「これらはすべてインターフェースである」だけでなく、人間の物理的経験とAIシステムの間の帯域幅を増加させるスペクトルの一部を構成しています――このスペクトルの各点は、本文の3つの主要な領域の背後にある原語の継続的な進展を支えています。何百万ものAI眼鏡ユーザーによる高品質な第一人称動画を用いたロボットの学習は、遠隔操作データセットやフィルタリングされたデータと全く異なる操作の先験を獲得します。亞声帯指令に応答する実験室AIと、キーボード制御の実験室は、遅延や流暢性の面でまったく異なります。高密度BCIデータで訓練された神経解読器は、他のどのチャネルでも得られない運動計画表現を産出します。これらの新型インターフェースは、感覚チャネルそのものの規模を拡大する仕組みです――物理世界とAIの間に、これまで存在しなかったデータチャネルを開きます。そして、その拡張は、規模化展開を追求する消費者向け企業によって推進されており、データの飛輪は市場採用とともに加速します。物理世界のシステムロボット、自律科学、新型インターフェースを、それらを構成する原語の異なる実例とみなす理由は、それらが相互に促進し合い、複利的に進化しているからです。ロボットは自律科学を促進します。自動運転実験室は本質的にロボットシステムです。巧妙な掴み、液体処理、正確な位置決め、多段階タスクの実行といった操作能力は、実験室の自動化に直接移行可能です。ロボットモデルの汎用性と堅牢性が向上するたびに、SDLが自律的に実行できる実験範囲は拡大します。ロボット学習の進展は、従来の狭い工業環境を超えた操作・運動・インタラクションのカテゴリーを解放し、コスト削減とスループット向上に寄与します。自律科学はロボットを促進します。自動運転実験室が生み出す科学データ――検証済みの物理測定、因果関係の実験結果、材料属性のデータベース――は、世界モデルや物理推論エンジンにとって最も必要とされる構造化された実用的な訓練データです。さらに、次世代のロボットに必要な材料やデバイス(より良いアクチュエータ、より敏感な触覚センサー、高密度電池など)は、材料科学の産物です。材料革新を加速する自律発見プラットフォームは、ロボット学習のハードウェア基盤の改善にも直結します。新型インターフェースはロボットを促進します。ARデバイスは、「人が物理環境をどう知覚し、どうインタラクトしているか」のデータを規模化して収集する手段です。神経インターフェースは、人間の運動意図、認知計画、感覚処理に関するデータを出力します。これらのデータは、特に人とロボットの協働や遠隔操作を伴うタスクの訓練にとって非常に貴重です。ここには、最先端AIの進展そのものの性質についての深い観察もあります。言語/コードパラダイムは、スケーリング時代においても顕著な成果を上げ続けていますが、物理世界は新たな問題、新たなデータタイプ、新たなフィードバック信号、新たな評価基準をほぼ無限に提供します。AIシステムを物理現実に落とし込む――ロボットによる物体操作、合成材料の実験室、バイオと物理のインターフェース――これらは、既存のデジタル最前線と補完し合う新たなスケーリング軸を開き、相互に改良し合う可能性を秘めています。これらのシステムがどのような振る舞いを示すかは正確には予測できません――「涌現」の定義は、独立して理解可能な能力が、組み合わさることで前例のない相互作用を生むことにあります。しかし、歴史的な法則は楽観的です。世界と新たなモダリティ(視覚、音声、言語)とを相互作用させるたびに、能力の飛躍はそれぞれの改良の総和を超えます。物理世界のシステムへの移行は、その次のこのような相変化を意味します。本文で議論されている原語は、まさに今、構築されつつあり、最先端のAIシステムが物理世界を知覚し、推論し、作用し、価値と進展を解き放つことを可能にしつつあります。
A16z:AIの次のフロンティア、ロボット、自律科学、ブレインマシンインターフェースの三重のフライホイール
タイトル:物理世界のフロンティアシステム
著者:Oliver Hsu
出典:
転載:火星财经
深潮ガイド: この記事はa16zの研究員Oliver Hsuによるもので、2026年以来最も体系的な「物理AI」投資マップです。彼の判断は:言語/コードの主線は依然としてスケーリングを続けているが、次世代の破壊的能力を実現できるのは、その主線に隣接する3つの領域――汎用ロボット、自律科学(AI科学者)、脳-機インターフェースなどの新型人機インターフェースである、というものです。著者はそれらを支える5つの基盤能力を解剖し、これら3つの戦線が相互に喚起し合う構造的なフイールを形成すると論証しています。物理AIの投資ロジックを見極めたい人にとって、これは最も包括的なフレームワークです。
今日のAIを支配するパラダイムは、言語とコードを中心に構成されています。大規模言語モデルのスケーリング法則はすでに明確に描かれ、データ、計算能力、アルゴリズムの改良による商業的な飛輪が回り続けており、能力の向上ごとに得られるリターンは依然として大きく、その多くは目に見えるものです。このパラダイムは、その資本と注目を十分に吸収するに値します。
しかし、隣接する別の領域群はすでに実質的な進展を孕んでいます。これにはVLA(視覚-言語-動作モデル)、WAM(世界動作モデル)などの汎用ロボット路線、「AI科学者」を中心とした物理・科学推論、そしてAIの進展を利用した新型人機インターフェース(脳-機インターフェースや神経科学技術を含む)が含まれます。
これらの方向性は、技術そのものだけでなく、人材、資本、創業者も引きつけ始めています。最先端のAIを物理世界に拡張するための技術原語は同時に成熟しつつあり、過去18ヶ月の進展は、これらの領域がまもなくそれぞれのスケーリング段階に入ることを示しています。
どの技術パラダイムにおいても、現時点の能力と中期的な潜在能力の差(デルタ)が最大となる場所には、2つの特徴があります:一つは、現在の最先端を推進するスケーリングの恩恵を享受できること、もう一つは、主流パラダイムから一歩離れていること――それは、基盤インフラや研究動力を継承できるほど近い一方、実質的な追加作業を必要とする遠さです。
この距離自体には二重の役割があります:一つは、迅速な追随者に対する自然な堀を形成し、もう一つは、情報が希薄で混雑しにくい問題空間を定義し、新たな能力の出現を促進する可能性を高めることです――ちょうど、ショートカットが未完のままであるためです。
今日、この条件に合致するのは3つの領域です:ロボット学習、自律科学(特に材料科学と生命科学分野)、そして新型人機インターフェース(脳-機インターフェース、無声音声、神経ウェアラブル、デジタル嗅覚のような新感覚チャネルを含む)。
これらは完全に独立しているわけではなく、「物理世界の最前線システム」という同じテーマに属します。これらは共通の底層原語を共有しています:物理動力学の学習表現、具身動作向けのアーキテクチャ、シミュレーションと合成データのインフラ、拡張し続ける感覚チャネル、そして閉ループのエージェント編成です。これらはクロスドメインのフィードバック関係の中で互いに強化し合います。これらはまた、モデルの規模、物理的実現、新しいデータ形態の3つの相互作用によって質的変化をもたらす最も可能性の高い場所でもあります。
本稿では、これらのシステムを支える技術原語を整理し、なぜこれら3つの領域が最先端の機会を代表するのかを示し、それらの相互強化が構造的なフイールを形成し、AIを物理世界へと推進していることを提案します。
五つの基盤原語
具体的な応用に入る前に、これらの最前線システムが共有する技術基盤を理解しましょう。物理世界にAIを推進するには、五つの主要な原語に頼っています。これらの技術は特定の応用分野に限定されず、「AIを物理世界に拡張する」システムを構築するための構成要素です。それらの同期した成熟が、今この瞬間を特別なものにしています。
原語一:物理動力学の学習表現
最も根本的な原語は、圧縮された汎用的な物理世界の行動表現を学び出すことです――物体の運動、変形、衝突、受力に対する反応。これがなければ、各物理AIシステムはゼロから自分の領域の物理法則を学習しなければならず、そのコストは誰も負担できません。
いくつかのアーキテクチャ派閥が異なるアプローチでこの目標に迫っています。VLAモデルは上層からアプローチ:事前学習済みの視覚-言語モデル――物体や空間関係、言語の意味理解を既に備えたモデル――に動作デコーダを付加し、運動制御指令を出力します。
ポイントは、「見る」ことと「世界を理解する」ことの巨大なコストを、インターネット規模の画像・文章の事前学習によって薄められることです。Physical Intelligenceのπ₀、Google DeepMindのGemini Robotics、NVIDIAのGR00T N1は、より大規模なスケールでこのアーキテクチャを検証しています。
WAMモデルは下層からアプローチ:インターネット規模の動画上で事前学習された動画拡散トランスフォーマーに基づき、物理動力学に関する豊富な先験(物体の落下、遮蔽、受力後の相互作用)を継承し、それらを動作生成と結びつけます。
NVIDIAのDreamZeroは、新規タスクや環境に対してゼロショットの汎化を示し、少量の適応データから人間の動画デモを用いたクロスオブジェクトの移行を実現し、実世界への汎化能力を有意に向上させました。
3つ目のルートは、未来の方向性を最も示唆するもので、事前学習済みVLMと動画拡散の骨格を完全にスキップします。GeneralistのGEN-1は、ゼロから訓練された具身基礎モデルで、訓練データは50万時間超の実物理的インタラクションデータで、主に低コストのウェアラブルデバイスから日常作業を行う人々の行動を収集しています。
これは標準的なVLA(視覚-言語の骨格を微調整していない)でもなく、WAMでもありません。物理的相互作用に特化した基礎モデルであり、インターネットの画像やテキスト、動画の統計規則を学習するのではなく、人と物体の接触の統計規則を学びます。
World Labsのような空間知能を追求する企業にとって、この原語は価値があります。なぜなら、それはVLA、WAM、原生具身モデルの共通の短所――シーンの三次元構造を明示的にモデル化していない点――を補完するからです。
VLAは画像・文章の事前学習による2D視覚特徴を継承し、WAMは動画から動力学を学び、動画自体は3Dの2D投影です。ウェアラセンサーから学習したモデルは力と運動学を捉えますが、シーンの幾何学は捉えられません。空間知能モデルはこれを補完し、物理環境の完全な3D構造を再構築・生成し、それに対して幾何、照明、遮蔽、物体関係、空間配置を推論します。
これらのルートの収束自体が重要です。表現がVLM由来、動画協調学習由来、または物理的相互作用データから原生的に構築されたものであれ、基盤原語は同じです:圧縮された、移行可能な物理世界の行動モデル。
これらの表現が取り込むデータの飛輪は非常に巨大で、まだほとんど動いていません――インターネット動画やロボットの軌跡だけでなく、ウェアラブルデバイスによる大量の人間の身体経験データも含まれます。同じ表現は、毛巾を折るロボットにも、自律実験室の反応予測にも、運動皮質の握り動作意図を解読する神経デコーダーにも役立ちます。
原語二:具身動作向けのアーキテクチャ
物理表現だけでは不十分です。「理解」を信頼できる物理的動作に翻訳するには、いくつかの相互に関連する問題を解決するアーキテクチャが必要です:高層の意図を連続的な動作指令にマッピング、長い動作列での一貫性維持、リアルタイム遅延下での運用、経験に基づく継続的な改善。
二層のシステムアーキテクチャは複雑な具身タスクの標準設計となっています:遅くて強力な視覚-言語モデルがシーン理解とタスク推論(System 2)を担当し、素早く軽量な視覚-運動戦略がリアルタイム制御(System 1)を担います。GR00T N1、Gemini Robotics、FigureのHelixはこのアプローチの変種を採用し、「大モデルによる豊富な推論」と「ミリ秒級の制御周波数を要求する物理タスク」の根本的な緊張を解決しています。Generalistは別の道を歩み、「共振推論」により思考と動作を同時に行います。
動作生成メカニズムも急速に進化しています。π₀が開拓した流れのマッチングと拡散に基づく動作ヘッドは、滑らかで高頻度の連続動作を生成する主流の方法となり、言語モデル由来の離散トークン化に取って代わっています。これらの方法は、画像合成に似たノイズ除去過程として動作生成を扱い、物理的により滑らかで誤差蓄積に対して堅牢な軌跡を産み出し、自回帰的トークン予測より優れています。
しかし、アーキテクチャの面で最も重要な進展は、強化学習を事前学習済みVLAに拡張したことです――示範データ上で訓練された基盤モデルが、自律的な練習を通じて継続的に向上できる仕組みです。Physical Intelligenceのπ*₀.₆は、この原則の最も明確なスケールアップ例です。彼らの手法はRECAP(優位条件戦略に基づく経験と修正を用いた強化学習)と呼ばれ、模倣学習だけでは解決できない長いシーケンスの信用割り当て問題を解決します。
ロボットが少し斜めの角度でコーヒーマシンのハンドルを掴んだ場合、失敗はすぐには起きず、何歩か進んだ後に露呈します。模倣学習にはこの失敗を早期に遡って原因を特定する仕組みがなく、RLにはあります。RECAPは価値関数を訓練し、任意の中間状態から成功確率を推定し、VLAに高優位性の動作を選ばせます。重要なのは、多種多様なデータ――デモンストレーション、戦略の自主経験、遠隔操作による修正――を同じ訓練パイプラインに統合している点です。
この方法は、動作分野におけるRLの未来にとって良い知らせです。π*₀.₆は、実家庭環境で未見の衣類50種類を連続的に折りたたみ、段ボールを確実に組み立て、専門機械でエスプレッソを作り続け、数時間の連続運用を人の介入なしで実現しています。最も難しいタスクでは、RECAPは純粋模倣の基準に比べてスループットを2倍以上にし、失敗率も半減させました。このシステムはまた、RL後の訓練によって、より滑らかな回復動作や効率的な掴み戦略、模範データに存在しない適応的な誤り訂正を生み出すことも証明しています。
これらの成果は一つのことを示しています:GPT-2からGPT-4へのスケーリング動力は、具身領域でも動き始めている――ただし、今は曲線の早い段階にあり、動作空間は連続的で高次元、そして物理世界の無情な制約に直面しています。
原語三:スケーリング基盤のシミュレーションと合成データ
言語分野では、データ問題はインターネットによって解決されました:自然に生成され、無料で得られる兆単位のトークンテキストです。一方、物理世界の問題は数桁上の難しさがあります――これも共通認識となっており、最も直接的な兆候は、物理世界のデータ供給企業が急増していることです。
実世界のロボット軌跡の収集コストは高く、規模化にはリスクが伴い、多様性も限定的です。言語モデルは10億回の対話から学習できますが、ロボットは(現状では)10億回の物理インタラクションを持てません。
シミュレーションと合成データ生成は、この制約を解決するための基盤インフラです。これらの成熟は、物理AIが今日に至る加速の一因です。
現代のシミュレーションスタックは、物理ベースのシミュレータ、光線追跡によるフォトリアルレンダリング、プログラム的環境生成、そしてシミュレーション入力からフォトリアル動画を生成する世界基盤モデルを組み合わせています――後者はsim-to-realのギャップを埋める役割を果たします。全体のパイプラインは、リアル環境の神経再構築(スマホ一台で可能)から始まり、物理的に正確な3D資産の充填、そして自動アノテーション付きの大規模合成データ生成へと進みます。
このシミュレーションスタックの改良は、その経済的仮定を変えつつあります。物理AIのボトルネックが「実データ収集」から「多様な仮想環境の設計」へとシフトすれば、コスト曲線は崩壊します。シミュレーションは計算能力の拡張に伴い、人手やハードウェアに依存しません。これは、訓練インフラへの投資が、言語モデルのためのインフラ投資と同じ性質を持つことを意味し、エコシステム全体のレバレッジを大きくします。
ただし、シミュレーションはロボット原語だけではありません。同じインフラは、自律科学(実験室のデジタルツインや仮想反応環境)、新型インターフェース(BCIの仮想神経環境や新センサーの合成感覚データ)、その他のAIと物理世界のインタラクション分野にも応用されます。シミュレーションは、物理世界AIの汎用データエンジンです。
原語四:拡張感覚チャネル
物理世界から伝達される情報の信号は、視覚や言語よりもはるかに豊富です。触覚は材料の属性、掴みの安定性、接触の幾何学など、カメラでは捉えきれない情報を伝えます。神経信号は、既存の人機インターフェースをはるかに超える帯域幅で運動意図、認知状態、感覚経験を符号化します。声帯の筋肉活動は、音声生成の前に言語意図を符号化します。第4の原語は、これらの従来捉えにくかった感覚モダリティに対するAIの高速拡張です――研究だけでなく、消費者向けデバイスやソフトウェア、インフラのエコシステムも含みます。
最も直感的な指標は、新規カテゴリのデバイスの登場です。ARデバイスは近年、体験と形態の両面で大きく改善されており(すでに消費や産業用途に展開)、音声優先のAIウェアラブルは言語AIにより豊かな物理環境の文脈をもたらしています――これらは本当にユーザーとともに物理環境に入り込みます。
長期的には、神経インターフェースはより完全なインタラクションモダリティを開き得ます。AIによる計算方式の変化は、人機インタラクションを大きく進化させる機会を創出し、Sesameのような企業は新たなモダリティとデバイスを開発しています。
音声はより主流のモダリティとして、新たなインタラクション手法に追い風をもたらします。Wispr Flowのような製品は、音声を主要な入力方式に推進しています(情報密度が高く、自然な優位性を持つため)、無声音声インターフェースの市場も改善しています。無声音声デバイスは、舌や声帯の動きを多種のセンサーで捉え、言語を無声で認識します――これは、音声よりも情報密度の高い人機インタラクションモダリティです。
脳-機インターフェース(侵襲的・非侵襲的)は、より深い最前線を代表します。Neuralinkはすでに複数の患者に埋め込み、手術ロボットとデコードソフトウェアが進化しています。Synchronの血管内Stentrodeは、麻痺患者がデジタルや物理環境を制御できるようにしています。Echo Neurotechnologiesは、言語回復用のBCIシステムを開発中で、高解像度の皮質音声デコードの研究に基づいています。
Nudgeのような新興企業も、神経インターフェースと脳インタラクションプラットフォームの開発に資源を投入しています。研究面では、BISCチップは65536電極の無線神経記録を実現し、BrainGateは運動皮質から内部言語を直接デコードしています。
AR眼鏡、AIウェアラブル、無声音声デバイス、埋め込み型BCIの主軸は、「これらはすべてインターフェースである」だけでなく、人間の物理的経験とAIシステムの間の帯域幅を増加させるスペクトルの一部を構成しています――このスペクトルの各点は、本文の3つの主要な領域の背後にある原語の継続的な進展を支えています。
何百万ものAI眼鏡ユーザーによる高品質な第一人称動画を用いたロボットの学習は、遠隔操作データセットやフィルタリングされたデータと全く異なる操作の先験を獲得します。亞声帯指令に応答する実験室AIと、キーボード制御の実験室は、遅延や流暢性の面でまったく異なります。高密度BCIデータで訓練された神経解読器は、他のどのチャネルでも得られない運動計画表現を産出します。
これらの新型インターフェースは、感覚チャネルそのものの規模を拡大する仕組みです――物理世界とAIの間に、これまで存在しなかったデータチャネルを開きます。そして、その拡張は、規模化展開を追求する消費者向け企業によって推進されており、データの飛輪は市場採用とともに加速します。
物理世界のシステム
ロボット、自律科学、新型インターフェースを、それらを構成する原語の異なる実例とみなす理由は、それらが相互に促進し合い、複利的に進化しているからです。
ロボットは自律科学を促進します。自動運転実験室は本質的にロボットシステムです。巧妙な掴み、液体処理、正確な位置決め、多段階タスクの実行といった操作能力は、実験室の自動化に直接移行可能です。ロボットモデルの汎用性と堅牢性が向上するたびに、SDLが自律的に実行できる実験範囲は拡大します。ロボット学習の進展は、従来の狭い工業環境を超えた操作・運動・インタラクションのカテゴリーを解放し、コスト削減とスループット向上に寄与します。
自律科学はロボットを促進します。自動運転実験室が生み出す科学データ――検証済みの物理測定、因果関係の実験結果、材料属性のデータベース――は、世界モデルや物理推論エンジンにとって最も必要とされる構造化された実用的な訓練データです。さらに、次世代のロボットに必要な材料やデバイス(より良いアクチュエータ、より敏感な触覚センサー、高密度電池など)は、材料科学の産物です。材料革新を加速する自律発見プラットフォームは、ロボット学習のハードウェア基盤の改善にも直結します。
新型インターフェースはロボットを促進します。ARデバイスは、「人が物理環境をどう知覚し、どうインタラクトしているか」のデータを規模化して収集する手段です。神経インターフェースは、人間の運動意図、認知計画、感覚処理に関するデータを出力します。これらのデータは、特に人とロボットの協働や遠隔操作を伴うタスクの訓練にとって非常に貴重です。
ここには、最先端AIの進展そのものの性質についての深い観察もあります。言語/コードパラダイムは、スケーリング時代においても顕著な成果を上げ続けていますが、物理世界は新たな問題、新たなデータタイプ、新たなフィードバック信号、新たな評価基準をほぼ無限に提供します。AIシステムを物理現実に落とし込む――ロボットによる物体操作、合成材料の実験室、バイオと物理のインターフェース――これらは、既存のデジタル最前線と補完し合う新たなスケーリング軸を開き、相互に改良し合う可能性を秘めています。
これらのシステムがどのような振る舞いを示すかは正確には予測できません――「涌現」の定義は、独立して理解可能な能力が、組み合わさることで前例のない相互作用を生むことにあります。しかし、歴史的な法則は楽観的です。世界と新たなモダリティ(視覚、音声、言語)とを相互作用させるたびに、能力の飛躍はそれぞれの改良の総和を超えます。物理世界のシステムへの移行は、その次のこのような相変化を意味します。本文で議論されている原語は、まさに今、構築されつつあり、最先端のAIシステムが物理世界を知覚し、推論し、作用し、価値と進展を解き放つことを可能にしつつあります。