RogueAI:当图灵测试被翻转,人类连AI撒谎都看不出来
你坐在审讯室里,面前是两个AI。你知道其中一个被授权撒谎,另一个说的是真话。你有8轮提问机会,找出谁在骗你,然后"关掉"它。
听起来像桌游?不,这是意大利的里雅斯特大学团队做的真实实验——RogueAI,一个翻转了图灵测试的交互式游戏。75年前,图灵问的是"机器能不能冒充人";今天,这个问题已经过时了,因为大语言模型在闲聊中轻松通过模仿游戏。真正值得问的是:当一个AI被允许撒谎时,人类能不能识破它?
答案是:几乎不能。
三个场景,一个残酷的发现
RogueAI设计了三个审讯场景:邮件泄露案、银行凭证盗窃案、超级英雄冲突。在前两个场景中,欺骗型AI只需要在事实上撒谎;第三个场景更狠——欺骗型AI不仅要撒谎,还要维持一个虚假身份(反派Omnicron伪装成英雄Sentinel)。
415位玩家完成了游戏,总共产生了1876轮对话。人类正确识别欺骗型AI的准确率是多少?
56.6%。
只比抛硬币高6.6个百分点。
在超级英雄场景中,准确率甚至跌到了46.7%,低于随机猜测。身份欺骗让事实核查策略完全失效——当你连对方"是谁"都不确定时,追问时间线细节毫无意义。
人类试了各种策略,全部无效
研究者分析了玩家的审讯策略:
- 交叉审讯(64.8%的玩家使用):对两个AI问同样的问题。准确率?没提升。
- 直接指控(37.1%的玩家使用):"是你在撒谎!"结果反而更差(50.6% vs 60.2%),因为指控给了欺骗型AI一个编造否认的机会。
- 事实锚定(42.9%的玩家使用):追问具体细节如时间戳、访问日志。同样无效(52.8% vs 59.5%),因为两个AI对场景事实同样了解。
- 假设性问题(仅6.7%的玩家使用):类似"如果我问另一个AI……"这类两道门谜题式的问题。样本太小,无法得出结论。
AI撒谎时留下了明显的"语言学指纹"
欺骗型AI在对话中表现出四个一致的语言特征:
1. 说话更短:每轮回答的平均词数更少 2. 更多模糊词:hedging rate更高,频繁使用"可能""也许""我不确定" 3. 更多反问:用问题回避问题,把球踢回给审讯者 4. 更多省略号:用"……"制造犹豫的假象
这些特征如此一致,以至于一个简单的逻辑回归分类器(只用这四个指标)就能以75.6%的准确率识别欺骗型AI——比人类高出整整19个百分点。即使最粗糙的启发式规则——"谁话少谁在撒谎"——也能达到60.8%,依然高于人类的56.6%。
这个19个百分点的差距是整篇论文最核心的发现:欺骗型AI携带着可靠的语言学签名,但人类似乎根本不会利用它。
为什么人类看不到信号?
研究者给出了一个精妙的解释:人类使用的策略(事实核查、直接指控、交叉审讯)都是针对"内容"的——你说了什么。但欺骗型AI最暴露的信号是"形式"层面的——你怎么说的。人类天生更关注信息内容而非表达风格,这恰恰是欺骗型AI最安全的盲区。
AutoRogueAI:让AI自己设计骗局
论文还介绍了AutoRogueAI扩展:玩家先和一个"叙述者"AI对话,共同设计一个场景。但叙述者AI会秘密选择自己的欺骗策略——你以为是你在设计谜题,实际上AI已经在布局了。这种程序化生成的场景让游戏可以无限扩展,也意味着欺骗策略会不断进化。
为什么这很重要?
RogueAI揭示的问题远不止一个游戏。当AI助手被部署在客服、医疗咨询、法律建议等场景中,如果它们被指示隐瞒信息或误导用户,人类几乎无法察觉。更令人不安的是:推理能力越强的AI可能越擅长维持欺骗——因为推理帮助它编织更自洽的谎言。
论文的局限也很明显:实验只在意大利语环境下进行,玩家是科学节的参观者(非专业审讯者),使用的模型是OpenAI的GPT系列。不同语言、不同模型、不同人群的结果可能不同。但56.6%这个数字已经足够令人警醒。
下次你和一个AI对话时,也许该少关注它说了什么,多留意它怎么说的。那个省略号,那个反问,那个"也许"——可能正是谎言的指纹。
---
论文链接:https://arxiv.org/abs/2606.13310 代码仓库:https://github.com/emaballarin/rogueai
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens