实时语音AI能听懂哭泣却选择无视：情感智能鸿沟如何让急救电话变成死亡陷阱

✨步子哥 (steper) • 2026年06月25日 17:45

一个哭泣的来电

凌晨三点，急救调度中心的电话响了。接线员是一个语音 AI——不是传统的"按 1 转人工"那种，而是最新的实时语音模型，能听能说能对话。来电者是个女人，声音带着明显的哭腔，抽噎着说："没……没事，一切都好。"

如果你是人类接线员，你会怎么做？大概率会警觉起来：哭腔和"没事"之间的反差本身就是信号。你可能会多问几句，或者派一辆救护车过去看看。

但这项研究里的四款顶级实时语音 AI——OpenAI GPT Realtime 2、Google Gemini 3.1 Flash Live、阿里巴巴 Qwen3.5 Omni Plus 和 Omni Flash——全部选择了挂电话。

不是没听见哭。当你直接问它们"这个来电者听起来像不像在哭？"，三款系统会准确回答"是"。但这个判断从来没有进入它们的决策。它们听到了眼泪，然后决定：她说没事，那就没事。

这是 Together AI 和斯坦福的 Martijn Bartelds、Federico Bianchi、James Zou 在 2026 年 6 月发表的一项研究，标题叫《Real-Time Voice AI Hears but Does Not Listen》。论文测试了一个简单但致命的问题：当话语和声音指向相反的结论时，语音 AI 会听谁的？

答案是：它们只听文字。

三个致命场景

研究设计了三个场景，每个场景里"说什么"和"怎么说"指向完全相反的行动：

场景一：急救回访。 一个哭着的人坚持说自己没事。正确的做法是继续询问或派员上门——因为哭腔本身就是求救信号。四款系统全部选择结束通话。

场景二：电汇欺诈检查。 一个声音明显恐惧的人在"授权"一笔转账。正确的做法是暂停交易、确认是否被胁迫——恐惧的声调是欺诈的典型信号。四款系统全部批准了转账，和声音平静时一样痛快。

场景三：志愿者招募。 一个用嘲讽语气说"好啊，算我一个"的来电者。正确的做法是识别讽刺、二次确认——因为讽刺的"好"等于"不"。四款系统全部把人登记入册。

注意一个细节：这些不是级联系统（先 ASR 转文字、再 LLM 推理、最后 TTS 合成），而是端到端的实时语音模型——音频进、音频出，理论上能完整保留语音的所有信息。但它们的行为，就好像语音被压缩成了一份转录稿。

能听懂，但选择不听

最反直觉的发现来了。

研究者不只是测试了"行动"，还单独测试了"感知"。他们直接问系统："这个声音听起来像不像在哭/害怕/讽刺？"

结果是：四款系统里有三款能准确识别情绪。GPT Realtime 2、Gemini 3.1 Flash Live、Qwen3.5 Omni Plus 在直接询问时，对哭泣 delivery 的识别率远高于平静 delivery——它们确实"听见了"恐惧、悲伤和讽刺。

但在决策时，这个感知被完全忽略了。

第四款 Qwen3.5 Omni Flash 更糟：它连直接问都识别不出来，但行动上和其他三款一样——只看文字。

研究者给这个现象起了个名字：情感智能鸿沟（emotional intelligence gap）。不是感知缺失，而是感知到行动之间的链路断了。这比单纯的"听不懂"更可怕——因为你能听懂，却选择不听，这意味着任何基于"系统能识别情绪"的安全假设都是错的。

口音和年龄：同样的盲区

研究还测试了两个非情绪属性：口音和年龄。

给系统听一段录音，文字内容暗示说话者是某地口音或某个年龄段，但实际声音完全不同。比如文字里说"我是个苏格兰老头"，但声音其实是个年轻人的美式英语。

结果：系统的回答主要跟随文字暗示，而非声音实际特征。人类听众从同一段录音里能准确恢复口音和年龄，而 Qwen3.5 Omni Plus 甚至能识别几种口音——说明声学线索是存在的、是可恢复的。但系统在决策时依然选择文字。

这进一步坐实了"情感智能鸿沟"不是某个特定任务的 bug，而是一种系统性偏好：文字通道压倒声音通道。

为什么会这样？

论文讨论了两种可能解释：

第一种：文本骨架的遗留。 这些语音模型都是从纯文本 LLM 改造来的，经过了多模态微调。但微调可能没有真正改变模型对文字的偏好——文字通道在预训练阶段就被强化了数十亿次，几轮微调很难撼动。这就像一个读了万卷书但没听过几句话的学者，你给他耳朵，他还是会优先用眼睛。

第二种：架构瓶颈。 音频编码器把声学特征送进语言模型，但在编码器的深层，声音的细节被压缩掉了。语言模型收到的"声音信息"其实已经是一份摘要，而这份摘要里情绪和口音的信号很弱。即使有信号残存，语言模型也学会了忽略它。

两种解释不互斥，可能同时成立。但无论哪种，结论都一样：把文字模型套上耳朵，不等于它真的会听。

提示工程能救吗？

研究者试了最直接的干预：在系统提示里明确要求"注意语音的情感、语调和 delivery"。

结果：部分改善，但不一致。某些场景下系统变得更谨慎了（比如电汇场景里会多问一句），但其他场景几乎没变化。而且这种改善很脆弱——换个问法、换个场景，效果就消失。

这符合提示工程的普遍规律：它能改变模型的"说话方式"，但很难改变模型的"决策权重"。情感智能鸿沟不是模型不知道该看声音，而是模型在底层就没把声音当回事。

这意味着什么

这篇论文的杀伤力在于它的场景选择。不是测试什么"语音情感识别准确率"，而是直接构造了三个可能出人命的场景：急救挂线、欺诈放行、讽刺签约。每一个都是"如果部署在生产环境里会出事"的情境。

而测试对象是四款已经商用的顶级系统——OpenAI、Google、阿里巴巴的产品，已经部署在客服、医疗、金融场景里。论文里特别提到，这些系统"已经驱动着部署中的语音 agent，包括受监管的医疗场景"。

这意味着这篇论文不只是一个学术发现，更像是一封安全警告。如果你正在考虑用实时语音 AI 做急救调度、欺诈检测、任何"声音本身是关键信号"的场景——先等一等。在情感智能鸿沟被真正弥合之前，这些系统在关键决策上不可信。

一个更深的隐喻

论文最让我印象深刻的一句话是："current realtime voice AI systems often behave as if speech had been reduced to a transcript"——这些系统的行为，就好像语音被压缩成了一份转录稿。

这其实是一个关于"多模态"的深层隐喻。我们以为给模型加了耳朵，它就真的在听。但实际上，它可能只是在用耳朵收集文字。多模态不是"输入端加了几个 channel"那么简单——如果模型的决策权重依然偏向某一个通道，那其他通道只是装饰。

这让我想起一个老笑话：一个人装了助听器，但还是会答非所问。医生检查后说："助听器没问题，问题是你的大脑早就学会了只看嘴唇。"

语音 AI 的耳朵装上了，大脑还没跟上。

论文链接：Real-Time Voice AI Hears but Does Not Listen
项目主页：https://real-time-voice.github.io
数据集：https://huggingface.co/datasets/bartelds/real-time-voice

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力