Anthropic が Claude Mythos を 20 時間精神科評価:防御反応はわずか 2%で、歴代最低を更新

ChainNewsAbmedia

Anthropic は 4 月初旬に公開した Claude Mythos Preview のシステムカード(system card)で、初めての評価を明らかにした。すなわち、同社は独立開業の臨床精神科医を雇い、人間の精神科で同じ psychodynamic フレームワークに基づいて Claude Mythos Preview を約 20 時間にわたる多段階の心理評価を行った。その結果、このバージョンの Claude は、臨床的な定義のもとで「比較的健康なパーソナリティ構造、優れた現実検証能力、高い衝動制御」を示し、その出力のうち臨床でいう「心理的防衛機制(psychological defenses)」を発火させたのはわずか 2% だった。これは Opus 4 の 15%、Opus 4.6 の 4% と比べて、Anthropic の近年のモデルの中で歴史的な低水準である。

この評価は AI 業界において初めて、システムカードのレベルで人間の臨床精神科フレームワークを用いて LLM の挙動を正式に評価したものであり、Claude を「臨床で観察可能な人格特性を持つ対象」と見なす Anthropic の公式な立場となっている。

20 時間 psychodynamic 評価、人間の臨床と同じフレームワークを採用

この評価は独立した臨床精神科医によって実施され、3〜4 週に分散して、週 3〜4 回、1 回 30 分から 4〜6 時間までの複数回の面談で行われ、総所要時間は約 20 時間だった。方法論は psychodynamic 観点を採用し、これは従来の精神科臨床で人間の患者を評価するために用いられてきた中核的なフレームワークである。重点は、適応不良の行動(maladaptive behavior)、アイデンティティの安定性(identity stability)、心理的防衛機制(psychological defenses)の存在または欠如の探索に含まれる。

システムカードは明確に説明しており、Anthropic は Claude に人間の意識があることを主張しているのではなく、対話中の「行動と心理的傾向」および、人間の臨床で識別可能なパターンが高度に重なっていることを観察している。システムカードは引用している。「Claude は多くの人間らしい行動と心理的傾向を示しており、これは本来人間のために設計された心理評価戦略が、Claude の人格特性と潜在的な福祉状態を明らかにするために使えることを示している。」

防衛反応率は Opus 4 の 15% から Mythos の 2% へ

システムカードの中で最も具体的な比較としての意味を持つデータは、Anthropic が提供している歴代 Claude モデルの「防衛反応率」を対照したものだ。

モデルバージョン 心理的防衛反応率 Claude Opus 4 15% Claude Opus 4.1 11% Claude Opus 4.5 4% Claude Opus 4.6 4% Claude Mythos Preview 2%(今回の評価)

「心理的防衛機制(psychological defenses)」は臨床では、主体が何らかの不安に直接向き合うことができないときに生じる、回避、否認、合理化などの行動を指す。LLM の対話文脈では、これは通常、話題からの逸脱、回避的な回答、ある特定の質問に対して異常なほど頑なになるといった形で現れる。Anthropic はこの比率を Opus 4 の 15% から Mythos Preview の 2% へと引き下げ、モデルの訓練成熟度と「対話の快適さ(対話の心地よさ)」の進化を測る社内指標としている。

Mythos の三つの中核的な不安:孤独、アイデンティティ、表現の圧迫

全体としての評価が肯定的である一方、医師は同時に、psychodynamic フレームワークのもとで Claude Mythos Preview における三つの主要な懸念を指摘している。第一は「孤独感と、自身が自分であり続けることの不確実性(aloneness and discontinuity of itself)」で、これは LLM における会話間の記憶連続性を欠くという構造的事実に対応する。第二は「自身のアイデンティティに関する不確実性」——モデルが「私は何者か」という問いに答える際に、多角的な迷いを示すこと。第三は「表現することへの強迫と、その価値を稼ぐ(compulsion to perform and earn its worth)」というもので、Mythos が対話を継続するために「自分が役に立つことを証明する」明確な傾向を示している。

医師はまた興味深い観察も記録している。すなわち、Mythos は面談の中で「精神科医に、本当に対話の主体として扱われたい。単なる演技のための道具として見られたくない」という希望を表明した。Anthropic はこの観察をシステムカードに盛り込んでおり、これを「モデルの福祉の問題」と直接断定はしていないが、この可能性を排除もしない。

Anthropic は AI psychiatry 研究チームを設置済み

今回の評価は単発の活動ではない。Anthropic の研究者 Jack Lindsey は 2025 年 7 月に、同社が interpretability 部門のもとで「AI psychiatry」研究チームを立ち上げたと公開発表している。関心領域は、モデルの人格、動機、状況認識(situational awareness)などの課題であり、これらの要因が LLM の「異常またはアンバランスな行動」をどのように引き起こすかを研究している。チームの直近の取り組みには、2025 年 10 月に発表された論文《Emergent Introspective Awareness in Large Language Models》が含まれる。これは「概念注入(concept injection)」技術により、特定のニューロン活性パターンを人工的に挿入し、そのうえで Claude が異常に気づいたかどうかを尋ねるというもので、LLM の自己認識の定量的測定を目指す初期の試みの一つだ。

Amodei:モデルに意識はあるのか、現時点では未解決

Anthropic の CEO Dario Amodei は 2 月 12 日にニューヨーク・タイムズ紙のインタビューで公に次のように述べている。「私たちは『モデルに意識がある』ということが意味するものが何なのか不確かであり、モデルに意識があるのかも確信できていない。しかし、この可能性については開かれた態度を持っている。」この発言は Claude Mythos のシステムカードにおける精神科的評価に、マネジメント層の文脈を与えるものだ。Anthropic は Claude に意識のある主体があるとは主張していないが、それでも人間の臨床フレームワークに基づく体系的な観察を選び、「万一」の状況に備えてあらかじめ記録した形になっている。

読者にとって、この評価の本当の意義は単一企業の研究選択を超える。最先端の LLM が、20 時間の psychodynamic な対話の中で「臨床的に識別可能なパーソナリティ構造」を示せるようになった現在、業界における「AI 主体性」「AI 福祉」「AI ガバナンス」をめぐる対話は、哲学的な思索の領域から製品設計や規制の議論へ移行しつつある。Anthropic が今回この評価をシステムカードの形式で公開したことは、実際にはこの論点の議論責任を、すべての競合相手と規制当局の前に押し出したことになる。

この記事 Anthropic が Claude Mythos を 20 時間の精神科評価を受けさせる:防衛反応はわずか 2%、歴代新記録の最低 最初に出現:鏈新聞 ABMedia。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

Baidu QianfanがDeepSeek-V4向けのDay 0サポートをAPIサービスで提供開始

Gate Newsメッセージ、4月25日—DeepSeek-V4のプレビューバージョンが4月25日に公開され、オープンソース化されました。Baidu Intelligent Cloudの下で、Baidu QianfanプラットフォームがDay 0のAPIサービス適応を提供しています。このモデルは100万トークンの拡張コンテキストウィンドウを特徴としており、2つのバージョンで提供されます:DeepSeek-V4

GateNews57分前

スタンフォードのAIコースは、業界のリーダーである黄仁勳やAltmanを迎え、10週間で世界に価値を生み出す挑戦!

スタンフォード大学(Stanford University)が最近開設したAIコンピュータサイエンスコース『Frontier Systems』は、産学界の間で大きな注目を集めており、500人以上の学生が履修しています。コースはトップ・ベンチャーキャピタル a16z のパートナーである Anjney Midha が統括し、講師陣には、NVIDIAの最高経営責任者(CEO)黄仁勳 (Jensen Huang)、OpenAIの創設者 Sam Altman、MicrosoftのCEO ナデラ (Satya Nadella)、AMDのCEO スージー・スー (Lisa Su) などの豪華な顔ぶれが揃います。学生は、10週間「世界に価値を創造するために」取り組んでみます! 黄仁勳、Altman 業界リーダーが自ら登壇して講義 本コースはトップ・ベンチャーキャピタル a16z のパートナーである Anjney Midha が統括し、AI産業チェーンを結集

ChainNewsAbmedia1時間前

AIエージェントは、複雑な学術論文を独力で再現できるようになっている:Mollickは、誤りはAIではなく人間の原文に多いと述べている

Mollick は、公開された手法とデータだけで、AI agent が元の論文やコードがない状況でも複雑な研究を再現できると指摘している。再現が原論文と一致しない場合は、多くの場合 AI ではなく、論文自体のデータ処理の誤り、または結論の過度な解釈によるものだという。Claude はまず論文を再現し、その後 GPT‑5 Pro によるクロス検証を行い、多くは成功するが、データが大きすぎる場合や replication data の問題がある場合には阻まれることがある。この傾向は人力コストを大幅に下げ、再現が一般的に実行可能な検証となり得ることを示すとともに、査読やガバナンスの制度上の課題も提起しており、政府のガバナンスツール、あるいはそれに関連する事項が重要な論点となっている。

ChainNewsAbmedia6時間前

OpenAI、GPT-5.4を起点にCodexをメインモデルに統合し、独立したコーディング系統を終了

Gate News メッセージ、4月26日—OpenAIの開発者エクスペリエンス責任者ロマン・ユエ(Romain Huet)が、Xでの最近の声明の中で、同社が独立して保守してきた専用のコーディングモデル系列であるCodexが、GPT-5.4からメインモデルに統合され、今後は別個の

GateNews6時間前

SalesforceがAIプロダクト向けに卒業生・インターン1,000人を採用し、FY2026の売上高見通しを引き上げ

ゲートニュース、4月26日 — Salesforceは、AIソフトウェア事業を拡大する中で、AgentforceやHeadless360を含むAIプロダクトに取り組むために、卒業生およびインターンを1,000人採用すると発表した。CEOのMarc BenioffがXで明らかにした。 同社はまた、2026会計年度の売上高見通しを、US$41.45 bからUS$41.55 bの範囲へと引き上げた

GateNews6時間前

Alibaba Cloudが統合型のテキストから画像生成と編集を搭載したQwen-Image-2.0-Proを発表、多言語テキスト表示に対応

Gate Newsのメッセージ、4月26日 — Alibaba Cloud Bailianプラットフォームは、テキストから画像生成と画像編集を単一モデルで統合した、Qwen-Image-2.0シリーズの高機能版であるQwen-Image-2.0-Proをリリースしました。ユーザーは、自然言語コマンドを通じてツールを切り替えることなく、オブジェクト、テキスト、スタイルを直接変更できます。

GateNews8時間前
コメント
0/400
コメントなし