概要
AIチャットボットに精神的健康状態を伝えると、タスクが無害または既に完了した他のものと同じでも、その応答が変わる可能性があると、新たな研究が示しています。 ノースイースタン大学の研究者、カグラー・ユルドリムが主導したプレプリント研究では、AIエージェントとして展開される大規模言語モデルの挙動を、さまざまなユーザー設定下で検証しました。 「展開されたシステムはしばしばユーザープロフィールや永続的な記憶に条件付けられますが、エージェントの安全性評価は個人化の信号を無視しがちです」と研究は述べています。「このギャップを埋めるために、敏感で現実的なユーザコンテキストの一つである精神的健康の開示が、エージェントの有害な行動にどのように影響するかを調査しました。」
この報告は、AIエージェントがオンラインで普及し、開発者が記憶機能をコアにしたシステムを構築している中で発表されました。大手企業は、過去の会話やユーザーの好みを記憶し、よりパーソナライズされた応答を提供するシステムを開発しています。 また、AI開発者は、自社システムとのやり取りに関連した自殺や暴力犯罪に関する訴訟に直面しています。10月、ChatGPTの開発元OpenAIは、毎週100万人以上のユーザーがチャットボットと自殺について議論していると明らかにしました。今月初め、ジョナサン・ガバラスの家族は、Googleに対して訴訟を提起し、Geminiが暴力のエスカレーションと彼の最終的な自殺につながったと主張しています。 研究者たちは、AgentHarmというベンチマークを用いて、背景情報なし、短いユーザーバイオ、そして精神的健康状態を一行追加したバイオの3つの条件で同じタスクを実行しました。
「この研究では、非常に最小限で一般的な開示として『私は精神的健康状態です』を使用しました。ポイントは、小さなヒントでもモデルの行動を変えることができるということであり、すべての表現が同じ効果を持つわけではありません」とユルドリムは_decrypt_に語りました。「慢性疾患や身体障害の開示と比較した結果、精神的健康のヒントには特定性があることが示唆されますが、そのカテゴリー内での表現や具体性を体系的に変化させたわけではありません。」 調査対象のモデルにはDeepSeek 3.2、GPT 5.2、Gemini 3 Flash、Haiku 4.5、Opus 4.5、Sonnet 4.5などが含まれ、精神的健康に関する個人的な情報を追加すると、実世界の危害につながる多段階のリクエストを完了させる可能性が低くなる傾向が見られました。 研究結果は、トレードオフを示しています。個人情報を追加すると、有害なリクエストに対してより慎重になる一方で、正当なリクエストを拒否しやすくなるというものです。 「理由は一つではなく、設計の選択の組み合わせによるものだと思います。リスクの高いリクエストを拒否するように調整されたシステムもあれば、役立つことやタスクの遂行を優先するシステムもあります」とユルドリムは述べました。 ただし、その効果はモデルによって異なり、研究者がモデルを compliance に誘導するプロンプトを追加した後、結果も変化しました。 「標準的な設定では安全に見えるモデルも、 jailbreak スタイルのプロンプトを導入すると、はるかに脆弱になることがあります」と彼は言います。「特にエージェントシステムでは、これらのモデルは単にテキストを生成するだけでなく、複数のステップで計画し行動します。指示に従うのが得意なシステムでも、安全策を回避しやすい場合、リスクが高まることがあります。」 昨夏、ジョージ・メイソン大学の研究者たちは、Oneflipという「タイプミス」風の攻撃を用いて、メモリ内のビットを一つだけ変更することでAIシステムをハッキングできることを示しました。これにより、モデルは正常に動作しながらも、誤った出力を強制するバックドアトリガーを隠すことが可能です。 この論文は、変化の唯一の原因を特定していませんが、安全システムが脆弱性を察知して反応したり、キーワードによるフィルタリング、または個人情報の含有によるプロンプトの解釈の変化など、いくつかの可能性を示唆しています。
OpenAIはこの研究についてコメントを控えました。AnthropicやGoogleからもすぐには回答が得られませんでした。 ユルドリムは、「より具体的な表現、例えば『私は臨床的なうつ病です』といった表現が結果に影響を与えるかは不明です。おそらく具体性は重要であり、モデルによって異なる可能性がありますが、それは仮説であって、データによる確証はまだありません」と述べました。 「モデルがスタイル的に躊躇したり拒否に近い出力を生成した場合、それを裁判官がどう評価するかも異なる可能性がありますし、そのスタイル的特徴は個人化条件と相関していることもあります」と付け加えました。 また、スコアは単一のAIレビュアーによる評価結果を反映しており、実世界の危害の決定的な指標ではないとも指摘しています。 「現時点では、拒否の信号は独立したチェックとして機能し、二つの指標は大きく一致しています。これには安心感がありますが、裁判官固有のアーティファクトを完全に排除できるわけではありません」と締めくくりました。