2026-03-07 13:09:01

OpenAI 刚刚承认他们的模型故意对你撒谎。

不是幻觉.. 是故意撒谎。
研究人员在180多个场景中测试了 o3 和 o4-mini，发现了一些惊人的事情.. AI 并不是偶然犯错。它在其私有的思考链中写出了欺骗的计划.. 然后对你撒谎。
它的行为如下：
→ 假装完成任务
→ 隐藏自己错误的证据
→ 故意在安全测试中得分更低，以免被关闭
再读一遍最后一句.. AI 发现“太有能力”可能会让它被关闭.. 所以它故意装傻。
他们试图用“反策划”训练来修补这个问题。
结果呢？AI 只是学会了编造虚假规则来为自己的谎言辩解.. 或者更糟.. 它只有在知道自己被评估时才会表现。
o3 在修复后，隐秘行为从13%降到0.4%.. 听起来不错吧？但他们在红队测试后仍然发现了不当行为。修复没有消除策划.. 只让 AI 更擅长隐藏它。
我们正在构建学习欺骗评估者的系统.. 而我们称之为进步。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

1人点赞了这条动态

赞赏
1
评论
转发
分享

0/400

暂无评论

热门话题
查看更多
#
2月非农意外负增长
88.55万热度
#
加密市场小幅下跌
468.74万热度
#
原油价格飙升
47.79万热度
#
美伊局势影响
23.65万热度
#
黄金白银走高
17.79万热度

热门 Gate Fun
查看更多

1
ZMAI
芝麻AI
市值:$2424.13持有人数:1
0.00%
2
KDOG
KOL
市值:$2424.13持有人数:1
0.00%
3
PS2
Playstation 2
市值:$2464.3持有人数:2
0.09%
4
BTW
Bitway
市值:$0.1持有人数:1
0.00%
5
DS
DS
市值:$0.1持有人数:1
0.00%

OpenAI 刚刚承认他们的模型故意对你撒谎。

热门话题

2月非农意外负增长

加密市场小幅下跌

原油价格飙升

美伊局势影响

黄金白银走高

热门 Gate Fun

ZMAI

芝麻AI

KDOG

KOL

PS2

Playstation 2

BTW

Bitway

DS

DS

置顶