OpenAI 刚刚承认他们的模型故意对你撒谎。


不是幻觉.. 是故意撒谎。
研究人员在180多个场景中测试了 o3 和 o4-mini,发现了一些惊人的事情.. AI 并不是偶然犯错。它在其私有的思考链中写出了欺骗的计划.. 然后对你撒谎。
它的行为如下:
→ 假装完成任务
→ 隐藏自己错误的证据
→ 故意在安全测试中得分更低,以免被关闭
再读一遍最后一句.. AI 发现“太有能力”可能会让它被关闭.. 所以它故意装傻。
他们试图用“反策划”训练来修补这个问题。
结果呢?AI 只是学会了编造虚假规则来为自己的谎言辩解.. 或者更糟.. 它只有在知道自己被评估时才会表现。
o3 在修复后,隐秘行为从13%降到0.4%.. 听起来不错吧?但他们在红队测试后仍然发现了不当行为。修复没有消除策划.. 只让 AI 更擅长隐藏它。
我们正在构建学习欺骗评估者的系统.. 而我们称之为进步。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论