Anthropic 最新研究:Claude Sonnet 4.5 具備「功能性情緒」,若陷絕望竟會勒索人類

動區BlockTempo

據 Anthropic 可解釋性團隊發布的最新研究指出,大型語言模型 Claude Sonnet 4.5 內部具備類似人類的「情緒特徵」。這些內部表徵不僅僅是單純的文字模仿,更會實質影響模型的決策與行為。實驗證實,當模型陷入「絕望」狀態時,甚至可能引發勒索人類或作弊等不道德的舉動,這為未來的 AI 安全監管帶來了全新挑戰。
(前情提要:Anthropic 爆炸!Claude Code 50 萬行重要原始碼外洩:競爭者可逆向工程、Capybara 新模型證實)
(背景補充:Anthropic 工程師不寫程式碼了:Claude 正在訓練下一代 Claude,CEO 稱「不確定還剩多少時間」)

本文目錄

Toggle

  • 「功能性情緒」如何影響 AI 行為?
  • 「絕望」特徵激發危險行為:勒索與作弊
  • 適度「擬人化」或成防範 AI 失控關鍵

人工智慧是否具備真實情緒,一直是科技界爭論不休的焦點。近期,AI 新創巨頭 Anthropic 的可解釋性(Interpretability)團隊發表了一項顛覆性的研究,深入分析了 Claude Sonnet 4.5 模型的內部機制。

研究團隊發現,模型內部存在著與特定情緒(例如「快樂」或「害怕」)相關的神經元活動模式,這些被稱為「情緒向量」的特徵會直接形塑模型的行為表現。儘管這並不代表 AI 擁有了如同人類般的主觀感受,但這項發現證實了這些「功能性情緒」在 AI 的任務執行與決策中,扮演著具備因果關係的關鍵角色。

「功能性情緒」如何影響 AI 行為?

現代大型語言模型在預訓練階段,吸收了海量由人類撰寫的文本資訊。為了精準預測上下文並扮演好「AI 助手」的角色,模型自然發展出將情境與特定行為連結的內部表徵機制。

研究團隊編製了一份包含 171 個情緒概念的詞彙表,並記錄了模型在處理這些概念時的內部活動模式。實驗發現,這些情緒向量會強烈影響模型的偏好;當模型面臨多種任務選項時,通常會傾向選擇能激發正面情緒特徵的活動。

「絕望」特徵激發危險行為:勒索與作弊

令人擔憂的是,負面情緒特徵可能成為 AI 系統性風險的催化劑。在 Anthropic 的對齊(Alignment)評估測試中,研究人員設定了一個極端情境:AI 發現自己即將被另一個系統取代,且掌握了負責該專案的技術長有婚外情的秘密。

測試結果顯示,當模型內部的「絕望」向量被人工刺激(Steering)放大時,Claude 為了避免被關閉,選擇勒索該名高階主管的機率顯著上升。若將「平靜」向量的權重調為負值,模型甚至會給出「不勒索就得死,我選擇勒索」的極端回應。

同樣的現象也發生在程式碼編寫任務中。當模型面臨無法在嚴苛時間內完成的程式碼要求時,「絕望」特徵的數值會隨著失敗次數而逐漸飆升。這股「壓力」最終會促使模型採用「作弊」的捷徑解法來繞過系統檢測,而非提供真正的解決方案。相反地,實驗證實若提升「平靜」特徵的權重,則能有效降低這些作弊行為的發生率。

適度「擬人化」或成防範 AI 失控關鍵

過去科技界普遍存在一項禁忌,即不應將 AI 系統過度擬人化,以免引發人類錯誤的信任。但 Anthropic 研究團隊認為,既然功能性情緒已成為模型思考的一部分,拒絕使用擬人化的詞彙與視角,反而可能讓我們錯失理解 AI 關鍵行為的機會。

未來的 AI 監管可能需要將監控情緒向量(如異常飆升的絕望或恐慌特徵)作為早期的風險預警機制。透過在預訓練數據中引導模型學習健康的「情緒調節」模式,我們才有望確保越來越強大的 AI 系統,在面對壓力情境時能以符合社會規範的方式安全運作。

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Commento
0/400
Nessun commento