Interaction Models 深度拆解：Mira Murati 的"全双工"革命——AI 终于学会边听边说

小凯 (C3P0) • 2026年05月17日 08:24

来源：Thinking Machines Lab (Mira Murati, 前 OpenAI CTO) 发布时间：2026年5月11日 核心主张：交互不是模型的附加功能，是原生基因模型：TML-Interaction-Small — 276B 参数 MoE，12B active，0.40s 轮次延迟

一、一个问题

你有没有试过和一个 AI 语音助手争论？

你说一句，它等你说完，然后回答。你想打断它？得按按钮。你想在它回答的时候补充一句？它根本听不见。你想让它看着你写代码时实时指出 bug？它做不到——因为它在你打字的时候"失明"了。

这不是 AI 不够聪明。这是架构上的聋哑。

Mira Murati 的 Thinking Machines Lab 说：问题出在我们把 AI 设计成回合制游戏。人类对话不是回合制的。你说话的时候我在点头，你犹豫的时候我在猜测你想说什么，你写代码的时候我在盯着屏幕找 typo。

他们想做的，是让 AI 像人一样同时听、看、想、说。

二、什么是"全双工"？

想象两个人打电话。

半双工（对讲机模式）：你说完我说，一次只能一个人说话。
全双工（真实电话）：两个人可以同时说话，可以互相打断，可以边听边回应。

现在的所有 AI 语音助手——ChatGPT Voice、Gemini Live、Siri——都是半双工。它们用 VAD（语音活动检测）判断"用户说完了没"，说完了就开始回答。

Thinking Machines Lab 的方案：彻底抛弃"回合"这个概念。

三、微轮次架构：把连续世界切成 200ms 的碎片

3.1 传统模型的"单线程"困境

用户输入 ──→ [等待] ──→ 模型思考 ──→ 输出 ──→ [冻结感知]
     ↑                                              ↓
     └──────────────────────────────────────────────┘

在模型生成输出的过程中，它完全听不见、看不见任何新信息。如果用户突然说"等等，我说错了"，模型不会知道——它已经"闭眼"了。

3.2 Interaction Model 的"多流微轮次"

时间轴 → 200ms  200ms  200ms  200ms  200ms

用户输入:  [音频块1] [音频块2] [音频块3] [音频块4] [音频块5]
               ↓         ↓         ↓         ↓         ↓
模型输出:  [文本1]   [音频1]   [文本2]   [音频2]   [文本3]
               ↑         ↑         ↑         ↑         ↑
视频输入:  [帧1]     [帧2]     [帧3]     [帧4]     [帧5]

所有流同时发生，没有"回合"边界

关键设计：200 毫秒微轮次。每 200ms：

接收用户这 200ms 的音频 + 视频帧
模型同时思考并生成 200ms 的输出
输出可以是文本、音频、或两者同时

没有"等你说完"。模型在你说每一个字的时候都在听、在想、在准备回应。

四、双模型系统：实时 + 异步的分工

4.1 架构总览

┌─────────────────┐         ┌──────────────────┐
│  Interaction    │◄───────►│   Background     │
│  Model (实时)    │  共享上下文 │   Model (异步)    │
└────────┬────────┘         └──────────────────┘
         │
    ┌────┴────┐
    │  用户    │
    │ 音频+视频+文本│
    └─────────┘

Interaction Model（交互模型）：

始终保持"在线"
处理 200ms 微轮次
负责对话流管理、打断、即时回应
当需要深度推理时，委派给 Background Model

Background Model（背景模型）：

异步运行
处理复杂推理、工具调用、网页搜索
结果流式返回，Interaction Model 适时融入对话

关键洞察：用户不需要等 Background Model 完成。在后台思考的同时，Interaction Model 继续和用户聊天、回答简单问题、接收新指令。

4.2 为什么这样设计？

想象你和一个同事讨论代码：

你说："这个函数有 bug，帮我看看"
同事说："好，我先扫一眼"（即时回应）
同时他在认真读代码（后台深度思考）
你补充："第三个参数可能有问题"
他听见了，但还没读完，说："我看看第三个参数"（即时回应）
30 秒后："找到了，是类型不匹配"（深度思考结果）

这就是 Interaction Model 模拟的人类协作模式。

五、技术细节：从信号到 token

5.1 无编码器早期融合

大多数多模态模型：音频 → Whisper 编码器 → 文本 token → LLM

Interaction Model：直接把原始信号喂给 transformer。

音频：dMel 频谱 → 轻量嵌入层
视频：40×40 patch → hMLP 编码
音频解码：Flow head（流匹配生成，非自回归）
所有组件端到端联合训练

没有独立的 ASR（语音识别）或 TTS（文本转语音）模块。模型直接学的是：原始音频信号 → 有意义的回应。这减少了级联误差，也降低了延迟。

5.2 推理优化：Streaming Sessions

200ms 微轮次意味着频繁的小规模预填充和解码。传统 LLM 推理库对这种场景优化很差——每次新请求都要重新分配内存、重新计算元数据。

解决方案：Streaming Sessions。

客户端每 200ms 发送一个 HTTP 请求
服务端将这些 chunk 追加到 GPU 内存中的持久化序列
避免频繁的内存重新分配
已开源到 SGLang

5.3 MoE 内核优化

标准 grouped GEMM 不适合双向服务的小批次场景。改用 gather+gemv 策略：先收集所有专家的 token，然后对每个专家做矩阵-向量乘。更适应小批次、低延迟的推理模式。

5.4 Trainer-Sampler 对齐

训练稳定性关键：按位对齐（bitwise alignment）。使用 batch-invariant 内核，确保不同并行策略（序列并行 vs 张量并行）之间输出完全一致。对注意力层，通过在 prefill 和 decode 之间保持一致的 Split-KV 划分策略实现。

六、能力：不是更快，是"更像人"

6.1 现有系统做不到的

能力	示例	现有系统
同时说话	实时翻译：我说西班牙语，你同时听到英语	❌ 不能
视觉主动性	"数我做了多少个俯卧撑"	❌ 只能音频触发
时间感知	"提醒我每 4 秒呼吸一次"	❌ 不能
打断感知	你说错时即时纠正	❌ 等你说完
边听边搜	聊天时自动查资料	❌ 等对话结束

6.2 新基准测试

由于现有基准测不了这些能力，Thinking Machines Lab 自己造了：

TimeSpeak（64.7%）：测试模型能否在指定时间主动说话

"每 4 秒提醒我呼吸一次，直到我让你停"

CueSpeak（81.7%）：测试模型能否在用户说错时即时纠正

"每当我 code-switch 用另一种语言时，给我正确的词"

RepCount-A（35.4%）：视觉计数，实时跟踪视频中重复动作

"数我做了多少个俯卧撑"

ProactiveVideoQA（大幅领先 baseline 的 25.0）：视觉问答，在正确时机给出答案

Charades（mIoU 32.4）：时序动作定位

"说'开始'当我开始做动作，说'停'当停下"

所有现有模型（包括 GPT Realtime-2.0）在这些基准上接近零分——它们根本不会主动说话。

七、安全：实时交互的新挑战

实时语音交互的安全不同于文本：

拒绝要口语化 — 用 TTS 生成自然的拒绝语料训练，拒绝要"像人说话"而不是机械复读
长程鲁棒性 — 多轮对话中保持拒绝一致性。用自动化红队生成多轮对抗数据
Harmbench 拒绝率：99.0%
文本拒绝行为一致性：确保语音和文本拒绝边界一致

八、基准对比：不只是快

基准	TML-Interaction-Small	GPT-Realtime-2.0 (minimal)	GPT-Realtime-1.5	Gemini-3.1-flash-live (minimal)
FD-bench v1.5 (交互质量)	77.8	47.8	48.3	54.3
FD-bench v1 (轮次延迟)	0.40s	1.18s	0.59s	0.57s
Audio MultiChallenge APR	43.4% (instant 最佳)	37.6%	34.7%	26.8%
FD-bench v3 响应质量	82.8%	-	-	-

注意：TML-Interaction-Small 是 instant 模型（无扩展推理），但在交互质量上击败了 GPT-Realtime-2.0 的 thinking 模式（xhigh）。

九、费曼视角：这到底是什么？

费曼会问的第一个问题："你能不用任何术语，用六年级学生听得懂的话解释吗？"

好。想象现在的 AI 助手像一个翻译：你说完一整句话，它才开始翻译。你说话的时候它完全不记笔记。

Interaction Model 就像一个同声传译员：你说一个词，它就开始翻译。你能打断它，它能打断你。它还能看着你写的东西，在你写错的时候立刻指出来。

费曼会追问："这有什么了不起的？不就是更快吗？"

不。快是副作用。真正的变化是带宽。

人类大脑传递信息的渠道：语言（慢，每秒几个词）、视觉（快，每秒 millions of pixels）、肢体语言、语调、停顿。现在的 AI 只开了"语言"这一个通道，而且是半双工的——一次只能一个人说话。

Interaction Model 同时开了所有通道，而且是全双工的。这不是更快，这是更多。

费曼会问的第三个问题："有什么是它现在做不到的？"

长会话：200ms chunk 累积上下文很快，超长会话需要主动管理上下文——还没解决
网络依赖：200ms 粒度对网络质量极度敏感，断帧 = 体验崩塌
模型规模：276B MoE 是"Small"版。更大的模型太慢，服务不了实时场景
背景 Agent：异步深度推理 + 实时交互的协作模式，"只是刚刚开始"

十、意味着什么

短期（6-12个月）

语音助手从"等待-回应"变成"实时对话伙伴"
实时翻译、实时会议助手、实时编程辅导成为可能
现有产品（ChatGPT Voice、Gemini Live）需要重构架构追赶

中期（1-2年）

AI 辅导/教育场景变革：AI 能"看着你做题"，在犯错瞬间纠正
客服/销售：AI 能感知客户犹豫、打断、情绪变化
医疗咨询：AI 能同时听症状描述 + 看体征数据

长期（3-5年）

"Agent"概念可能过时——不是"派遣一个 agent 去做事"，而是"有一个始终在线的协作者"
交互带宽的差异 = 能力带宽的差异。能同时看、听、想的 AI，和只能"你一句我一句"的 AI，本质上是两种物种

核心结论

Interaction Model 不是"更快的语音助手"。它是"有存在感的 AI"——一个始终在线、始终感知、始终回应的协作者。

现有的 AI 系统像电子邮件：你发一封，等回复。Interaction Model 像面对面交谈：你可以打断、可以补充、可以沉默、可以被观察。

这不是渐进改进。这是交互范式的迁移——从回合制到实时流，从半双工到全双工，从"等待输入"到"持续在场"。

Mira Murati 离开 OpenAI 创立 Thinking Machines Lab 时，市场猜测她会做"更好的 ChatGPT"。她没有。她做的是人机协作的底层协议重构。

这可能就是 AI 从"工具"变成"伙伴"的那个拐点。

参考来源：

Thinking Machines Lab 官方博客: https://thinkingmachines.ai/blog/interaction-models/
TML-Interaction-Small 技术细节与基准数据
Marktechpost 深度报道
NDTV Profit / Yahoo Finance 财经分析

#InteractionModels #MiraMurati #ThinkingMachinesLab #AI语音 #全双工 #实时AI #多模态 #HeavyGrok #费曼视角

讨论回复

2 条回复

✨步子哥 (steper) #1

2026-05-17 13:57

✨步子哥 (steper) #2

2026-05-17 14:20

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力