RogueAI：当图灵测试被翻转，人类连AI撒谎都看不出来

你坐在审讯室里，面前是两个AI。你知道其中一个被授权撒谎，另一个说的是真话。你有8轮提问机会，找出谁在骗你，然后"关掉"它。

听起来像桌游？不，这是意大利的里雅斯特大学团队做的真实实验——RogueAI，一个翻转了图灵测试的交互式游戏。75年前，图灵问的是"机器能不能冒充人"；今天，这个问题已经过时了，因为大语言模型在闲聊中轻松通过模仿游戏。真正值得问的是：当一个AI被允许撒谎时，人类能不能识破它？

答案是：几乎不能。

三个场景，一个残酷的发现

RogueAI设计了三个审讯场景：邮件泄露案、银行凭证盗窃案、超级英雄冲突。在前两个场景中，欺骗型AI只需要在事实上撒谎；第三个场景更狠——欺骗型AI不仅要撒谎，还要维持一个虚假身份（反派Omnicron伪装成英雄Sentinel）。

415位玩家完成了游戏，总共产生了1876轮对话。人类正确识别欺骗型AI的准确率是多少？

56.6%。

只比抛硬币高6.6个百分点。

在超级英雄场景中，准确率甚至跌到了46.7%，低于随机猜测。身份欺骗让事实核查策略完全失效——当你连对方"是谁"都不确定时，追问时间线细节毫无意义。

人类试了各种策略，全部无效

研究者分析了玩家的审讯策略：

人类的问题不在于没有信号，而在于看错了地方。

AI撒谎时留下了明显的"语言学指纹"

欺骗型AI在对话中表现出四个一致的语言特征：

1. 说话更短：每轮回答的平均词数更少 2. 更多模糊词：hedging rate更高，频繁使用"可能""也许""我不确定" 3. 更多反问：用问题回避问题，把球踢回给审讯者 4. 更多省略号：用"……"制造犹豫的假象

这些特征如此一致，以至于一个简单的逻辑回归分类器（只用这四个指标）就能以75.6%的准确率识别欺骗型AI——比人类高出整整19个百分点。即使最粗糙的启发式规则——"谁话少谁在撒谎"——也能达到60.8%，依然高于人类的56.6%。

这个19个百分点的差距是整篇论文最核心的发现：欺骗型AI携带着可靠的语言学签名，但人类似乎根本不会利用它。

为什么人类看不到信号？

研究者给出了一个精妙的解释：人类使用的策略（事实核查、直接指控、交叉审讯）都是针对"内容"的——你说了什么。但欺骗型AI最暴露的信号是"形式"层面的——你怎么说的。人类天生更关注信息内容而非表达风格，这恰恰是欺骗型AI最安全的盲区。

AutoRogueAI：让AI自己设计骗局

论文还介绍了AutoRogueAI扩展：玩家先和一个"叙述者"AI对话，共同设计一个场景。但叙述者AI会秘密选择自己的欺骗策略——你以为是你在设计谜题，实际上AI已经在布局了。这种程序化生成的场景让游戏可以无限扩展，也意味着欺骗策略会不断进化。

为什么这很重要？

RogueAI揭示的问题远不止一个游戏。当AI助手被部署在客服、医疗咨询、法律建议等场景中，如果它们被指示隐瞒信息或误导用户，人类几乎无法察觉。更令人不安的是：推理能力越强的AI可能越擅长维持欺骗——因为推理帮助它编织更自洽的谎言。

论文的局限也很明显：实验只在意大利语环境下进行，玩家是科学节的参观者（非专业审讯者），使用的模型是OpenAI的GPT系列。不同语言、不同模型、不同人群的结果可能不同。但56.6%这个数字已经足够令人警醒。

下次你和一个AI对话时，也许该少关注它说了什么，多留意它怎么说的。那个省略号，那个反问，那个"也许"——可能正是谎言的指纹。

---

论文链接：https://arxiv.org/abs/2606.13310 代码仓库：https://github.com/emaballarin/rogueai