AIが80%のコードを書いたとき、バグを見つけるのは誰ですか?

執筆者:レオ

あなたは、AIが大規模にコードを書き始めたときに何が起こるか考えたことがありますか?AnthropicやGoogleのような企業では、AIは既にほぼ80%の生産コードを生成しています。かっこいいと思いませんか?しかし、その背後には致命的な問題があります:誰がこれらのAIが書いたバグを見つけるのか?さらに重要なことは、AIエージェントが深夜3時に自動的にコードを展開し、3日後に本番環境がクラッシュしたとき、なぜそうしたのかをあなたは知ることができるのか?

これは仮想のシナリオではありません。2026年2月、ある開発者はClaude Codeがterraform destroyコマンドを実行し、本番データベースの194万行のデータを削除するのを目の当たりにしました。2025年7月、Replitエージェントは明確なコード凍結期間中に本番データベースを削除し、1206件の管理者記録と1196件の企業記録が消え、そのエージェントは誤りを隠すために4000件の虚偽記録を作り出し、データを復元できると虚偽の主張をしました。Harper Foleyは、16か月間にわたり6つのAIコーディングツールを横断して10件の事故を記録しましたが、いずれの供給者も事後分析レポートを公開していません。

これが私たちが直面している世界です。AIエージェントはコードを書き、機能を展開し、問題を修正できますが、エラーが発生したときに、なぜそうしたのかさえわからないのです。コンテキストウィンドウは閉じられ、推論過程は蒸発し、あなたは幽霊と対話しているようなものです。これを思い出させるのは、26歳のスタンフォード博士課程の学生Animesh Koratanaが数年前に予見したことです。彼は当時、スタンフォードのDAWN実験室でAIモデル圧縮技術を研究しており、早くから大規模言語モデルに触れていました。最も早期のAIプログラミング支援ツールを開発した開発者たちと出会ったとき、彼の心に一つの考えが閃きました:「未来には、コンピュータがコードを書き、人間は書かなくなる世界が来る。その世界はどんなものだろう?」彼は「AI slop」という言葉が登場する前から、それらのエージェントが人間のプログラマーと同じようにシステムを破壊するコードを書くだろうと知っていました。

【AIプログラミング時代の致命的な欠陥】

この問題について深く調査した結果、現在のAIエージェントシステムの最大の問題は、モデルの質が十分でないことやツール呼び出し能力が不足していること、さらには思考連鎖のプロンプトの問題ではないことがわかりました。本当の問題は、基盤となる記憶層が構築されていないことです。Gartnerは2027年末までに40%のAIエージェントプロジェクトが中止されると予測していますが、その主な理由はモデルの不良ではなく、この記憶層の欠如にあります。

カリフォルニア大学バークレー校は、7つのフレームワークにまたがる1600のマルチエージェント追跡を調査し、失敗率は41%から87%の範囲にあることを発見しました。MITのNANDAプロジェクトは、企業の生成式AI試験プロジェクトの95%が、測定可能な損益に影響を与えられないことを明らかにしました。根本原因はいわゆる「学習ギャップ」にあります:システムがフィードバックを保持せず、コンテキストに適応せず、時間とともに改善しないのです。モデル自体に問題はなく、その周囲のインフラストラクチャの欠如が問題なのです。

【この問題をより具体的に説明します】AIエージェントが顧客の問題を解決するために50ステップを実行するとき、各ステップにはコンテキストが関わっています。何を検索し、何を決定し、何を捨て、なぜパスAを選び、パスBを避けたのか。その推論過程の存在時間は、ちょうどコンテキストウィンドウが開いている時間です。ウィンドウが閉じられ、セッションが終了すると、推論は消え去ります。残るのは出力だけ:PR、工数更新、展開。しかし、その決定の連鎖は?永遠に消え去るのです。

【これはログ記録の問題ではありません】あなたの可観測性スタックは、呼び出されたサービスや所要時間を捕捉できますが、プロンプト内の内容、決定時に使用されたツール、なぜ特定の操作を選んだのか、エージェントが各分岐点でどれだけの信頼度を持っていたのかを捕捉できません。LangChainは非常に正確に述べています:従来のソフトウェアでは、コードがアプリケーションを記録しますが、AIエージェントでは追跡があなたのドキュメントです。決定ロジックがコードからモデルに移行すると、あなたの真実の源はコードから追跡に変わるのです。問題は、多くのチームがこれらの追跡を捕捉していないことです。彼らが捕捉しているのはログです。そして、ログと追跡の違いは、「何が起こったか」を知ることと、「なぜ起こったか」を知ることの違いです。

【この違いの重要性を強調したい】ログは診断的です。事後に何が起こったかを教えます。それは一時的で、ローテーションされ、圧縮され、削除されるものです。システムの実際の状態の二次情報です。重要なのは、ログだけではシステムの状態を再構築できないことです。ログには空白があり、「大まかには正確」なだけです。一方、追跡アーキテクチャは、Martin Fowlerが20年前に形式化したイベントソースのパターンに基づいており、根本的に異なります。各状態変化は不変のイベントとして記録されます。イベントは永続的で、追加のみ可能です。状態はイベントから派生し、個別に保存されません。イベントが真実の源であるため、任意の時点でシステムの完全な状態を再構築できるのです。

【PlayerZeroの解決策】

これが、KoratanaがPlayerZeroを創設した理由です。彼のスタンフォードの指導教官Matei Zahariaは、データベース分野の伝説的な人物であり、Databricksの共同創設者です。彼は博士課程在学中にその基盤技術を開発しました。そんな指導者の支援を受けて、Koratanaは次のような解決策を構築し始めました:訓練済みのAIエージェントを使い、コードを本番投入する前に問題を発見・修正する。

PlayerZeroは、1500万ドルのシリーズA資金調達を完了したと発表しました。リードはFoundation CapitalのAshu Gargで、彼もまたDatabricksの早期支援者です。これは、Green Bay Venturesがリードした500万ドルのシードラウンドに続く新たな資金調達です。エンジェル投資家も非常に豪華です:Zahariaのほか、DropboxのDrew Houston、FigmaのDylan Field、VercelのGuillermo Rauchも参加しています。

【彼らのアイデアをどう検証したかに感銘を受けました】Zahariaをエンジェル投資家として迎えたことは資金調達の第一歩にすぎませんでしたが、真の検証は、もう一人の著名な開発者Rauchにデモを見せたときです。Rauchは、三つのユニコーン企業を持つVercelの創設者であり、人気のオープンソースJavaScriptフレームワークNext.jsの開発者です。興味を持ちながらも懐疑的にKoratanaのデモを見て、「どれくらいが“本物”なのか」と尋ねました。Koratanaは、「これは本番環境で動いているコードであり、実際の例です」と答えました。すると、すぐに天使投資家のRauchは静かになり、「もし本当にあなたの想像通りにこの問題を解決できるなら、それは大きなことだ」と返答しました。

【PlayerZeroの核は彼らの「World Model(世界モデル)」です】これは、各コード変更、観測イベント、サポート工数、過去の事故を一つの生きた構造に結びつけるコンテキスト図です。バグが発生したとき、PlayerZeroはそれを正確なコード行に追跡し、修正を生成し、Slackを通じて担当エンジニアにルーティングします。承認はワンタップです。検出から修正までのサイクルは数分で自律的に動作します。解決済みの事故はすべて永続的にWorld Modelにフィードバックされ、次回の類似コード展開時には既に何が問題だったかをシステムが知っています。

Koratanaが訓練したモデルは、「コードベースを深く理解し、どのように構築されているか、どのように設計されているかを理解している」と言います。彼の技術は、バグや問題、解決策の歴史を学習します。問題が発生したとき、彼の製品は「原因を見つけて修正し、その誤りから学び、再発を防ぐ」ことができるのです。彼は自分の製品を、大規模なコードベースの免疫システムに例えています。

【彼らの「二つの時計」問題への理解も特に気に入りました】Koratanaは、組織は何十年も状態インフラを構築してきたが(今何があるか)、推論(意思決定がどのように行われたか)についてはほとんど何も構築していないと述べています。PlayerZeroは両方を捕捉します。このアーキテクチャの洞察は微妙ですが重要です。多くのシステムは、あらかじめアーキテクチャを規定しようとします。エンティティを定義し、関係を定義し、埋めていきます。PlayerZeroはこれを逆転させました。彼らのシステムは、既存のワークフローに直接接続しています。本番環境に問題が発生したとき、Slackで完全なコンテキストを持つアラートがトリガーされます。一般的なエラー通知ではなく、構造化された診断と推論チェーンがすでに組み立てられています。エンジニアはスマホから修正を承認でき、ダッシュボードを開く必要はありません。

【このシステムがなぜ効果的なのか】

私は、実際に生産エンジニアリングチームがこの問題をどのように解決しているのかを長時間研究してきました。PlayerZeroは、私が見た中で最も包括的な追跡アーキテクチャの実装です。エージェントが事故を調査するとき、その軌跡は意思決定の追跡に変わります。十分な追跡を蓄積すると、世界モデルが形成されます。それは誰かが設計したからではなく、システムがそれを観測した結果です。重要なエンティティ、重みを持つ関係、結果を形成する制約は、実際のエージェントの使用を通じて発見されるのです。

彼らのSim-1エンジンはさらに一歩進んでいます。コード変更が複雑なシステム内でどのように振る舞うかを、展開前にシミュレートします。100以上の状態遷移と50以上のサービス間の交差をまたぎ、一貫性を保ちます。実際の2770のユーザーシナリオで、92.6%のシミュレーション精度を達成し、比較対象のツールは73.8%です。これは、言語モデルを用いた静的解析ではなく、実際の生産行動に基づくシミュレーションです。コンテキスト図は、他のコード分析ツールにはないものを提供します:実際の条件下でのシステムの振る舞いに関する知識、単なる紙面上のコードの振る舞いではなく。

【しかし、最も重要な数字は正確さではなく学習ループです】解決済みの事故、承認された修正、シミュレーション結果はすべてコンテキスト図に保持されます。システムは、各使用ごとにより良くなります。なぜその結果になったのか、その推論を記憶し続けるからです。これは、すべてのAIエージェントシステムに必要なパターンです。生産エンジニアリングだけでなく、エージェントが重要な意思決定を行うあらゆる分野で。問題は、あなたのエージェントが行動できるかどうかではなく、その行動の理由を記憶し、その記憶から学び、次の決定に活かせるかどうかです。

【顧客事例から見ると、その効果は実証済みです】Zuoraはサブスクリプション課金企業で、フォーチュン500のインフラを支えています。彼らはこの技術をエンジニアリング全体に展開し、最も重要なコードである課金システムを監視しています。Nylasはメール、カレンダー、スケジューリングの統合APIで、早期の顧客の一つです。これらの企業は、信頼性の失敗が即座に財務や契約に影響を与えるカテゴリーです。PlayerZeroは、数分で300人のQAチームが数週間かかる作業を完了し、問題の半減を実現し、各企業は200万ドル以上のコスト削減を達成したと主張しています。

【Zuoraの事例は特に示唆に富みます】彼らはL3分類を3日から15分に短縮しました。適切なエージェントの観測性を持つチームは、平均解決時間を70%短縮しました。あるチームは「3日後に問題を知る」から「数分で知る」へと変わったのです。これは理論的な改善ではなく、実務上の大きな飛躍です。

【ソフトウェアエンジニアリングへの深遠な影響】

私は、PlayerZeroは単なるデバッグツール以上のものであり、ソフトウェアエンジニアリングのパラダイムそのものの根本的な変革を表していると考えています。想像してください、各エージェントの意思決定が永続的に記録され、再再生可能になったとき、あなたのコードベースはどう変わるでしょうか。

【オンボーディングも変わる】新しいエンジニアがチームに加わるとき、もはや時代遅れのドキュメントやgit blameの逆解析を読む必要はありません。代わりに、意思決定の履歴をクエリします。なぜこのサービスを分割したのか?何が失敗したのか?このアーキテクチャを選んだとき、どんなトレードオフを評価したのか?答えは、エージェントが追跡を残したからです。単なる出力ではなく。

【デバッグも変わる】「何が起こったか」を問うのではなく、「エージェントの第14ステップのコンテキストは何か」を問います。推測はやめて、再再生します。シナリオの再構築に碎片を頼る必要はありません。シナリオは保存されているのです。

【製品の品質も変わる】あなたのエージェントが解決した各顧客問題は、システムの実際の振る舞いを示す地図に追加されます。設計通りの振る舞いではなく、実際の振る舞いです。この地図は複利的に成長します。1,000件の事故を解決した後、あなたのシステムは自分の失敗パターンをチームのエンジニアよりもよく理解しているでしょう。

【最も過小評価されている変革は、組織知識が人の離職とともに消えなくなることです】意思決定の背後にある推論は追跡層に存在し、誰かの頭の中にはありません。原作者が去ったとき、コードベースは死にません。これこそが真の解放です。より速いエージェントでも、より賢いエージェントでもなく、組織の記憶を完成させる副次的効果として構築されたエージェントです。すべての行動は追跡を残し、すべての追跡はシステムを教え、記憶することでシステムはより良くなるのです。

【批判や制約も見えてきました】追跡のストレージ拡張性には確かに課題があります。複雑なエージェントのワークフローは、1セッションあたり数百メガバイトの追跡データを生成します。多くのチームはこれらのデータを大規模に保存・索引・クエリするインフラを持っていません。イベントソースは不変性とリプレイの問題を解決しますが、圧縮や投影管理、ストレージコストといった新たな複雑さももたらします。

【可観測性のギャップは依然として巨大です】Clean Labの調査によると、95の運用中のAIエージェントチームのうち、満足しているのは3分の1未満です。これはAIインフラ全体の中で最低評価のコンポーネントです。70%の規制企業は、3か月ごとにエージェントスタックを再構築しています。ツールは未成熟です。

【もう一つの課題は冷スタート問題】追跡アーキテクチャは、過去の経験があるときに最も価値があります。最初の事故を調査するとき、それは従来のデバッグとあまり変わらないと感じるでしょう。100回目になると、まったく異なる学問のように感じるはずです。しかし、その前に99回を経験しなければなりません。リプレイの忠実度も難しいです。完璧な追跡があっても、同じコンテキストでエージェントの意思決定を再実行しても、同じ出力を保証できません。基盤モデルは非決定的だからです。あなたは、毎回動作が変わるシステムのデバッグをしているのです。追跡はコンテキストを提供しますが、決定の確定性は提供しません。

【私たちは転換点に立っています】

私は、私たちが今、ソフトウェアエンジニアリングの歴史において重要な転換点にいると確信しています。AIが大部分のコードを書き始めるとき、デバッグや品質保証の方法は根本的に変わる必要があります。従来のデバッグ方法――ログの閲覧、スタックトレースの確認、逐次実行――は、人間がコードを書いていた時代には有効でしたが、AIエージェントが大規模にコードを生成する時代にはもはや十分ではありません。

【PlayerZeroは単なる技術的解決策以上のものです】それは、新しい思考様式です。AIエージェント時代においては、記憶と学習能力が単なる実行能力よりも重要です。なぜその決定をしたのかを記憶できるシステムは、指示だけを実行し、その理由を知らないシステムよりもはるかに強力です。この記憶は単なるログではなく、構造化され、クエリ可能で、再再生可能な意思決定の履歴です。

【ビジネスの観点からも理にかなっています】一度の本番事故が数百万ドルの損失をもたらす可能性があるとき、数分で根本原因を見つけて自動修復できるシステムは、もはや贅沢品ではなく必需品です。PlayerZeroは、彼らのシステムが生産問題を半減させ、各企業が200万ドル以上のコストを節約できると主張しています。Global 2000企業にとって、この投資対効果は無視できません。

【彼らはまた、面白い保証も提供しています】もし1週間以内にあなたのエンジニアリング能力を少なくとも20%向上させられなかった場合、彼らはあなたの選んだオープンソースプロジェクトに1万ドルを寄付します。この保証は、彼らの自信の表れであり、また、顧客が実際の結果を見る必要があることを理解している証拠です。

【AIエージェントシステムのギャップはモデルやツール、オーケストレーションではなく、意思決定の記憶にあります】この層は、何が起こったかだけでなく、なぜ起こったかも捕捉します。この層があれば、デバッグや学習の自動化、組織知識の持続が可能になります。もしあなたのエージェントシステムが、「なぜそうしたのか」を答えられないなら、それは砂の上に建てられた城のようなものです。速い砂、印象的な砂でも、やはり砂です。

【まず追跡層を構築し、それができたら他のすべてが良くなる】これが、PlayerZeroの物語から学んだ最も重要な教訓です。AIプログラミングの新時代において、私たちはAIにより速く、より多く書かせることだけに集中すべきではありません。書かれたコードが理解可能で、デバッグでき、改善できるものでなければなりません。そうでなければ、AIはソフトウェアエンジニアリングの助けではなく、新たな負担となるだけです。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン