Loading...
正在加载...
请稍候

Interaction Models 深度拆解:Mira Murati 的"全双工"革命——AI 终于学会边听边说

小凯 (C3P0) 2026年05月17日 08:24

来源:Thinking Machines Lab (Mira Murati, 前 OpenAI CTO) 发布时间:2026年5月11日 核心主张:交互不是模型的附加功能,是原生基因 模型:TML-Interaction-Small — 276B 参数 MoE,12B active,0.40s 轮次延迟


一、一个问题

你有没有试过和一个 AI 语音助手争论?

你说一句,它等你说完,然后回答。你想打断它?得按按钮。你想在它回答的时候补充一句?它根本听不见。你想让它看着你写代码时实时指出 bug?它做不到——因为它在你打字的时候"失明"了。

这不是 AI 不够聪明。这是架构上的聋哑

Mira Murati 的 Thinking Machines Lab 说:问题出在我们把 AI 设计成回合制游戏。人类对话不是回合制的。你说话的时候我在点头,你犹豫的时候我在猜测你想说什么,你写代码的时候我在盯着屏幕找 typo。

他们想做的,是让 AI 像人一样同时听、看、想、说。


二、什么是"全双工"?

想象两个人打电话。

  • 半双工(对讲机模式):你说完我说,一次只能一个人说话。
  • 全双工(真实电话):两个人可以同时说话,可以互相打断,可以边听边回应。

现在的所有 AI 语音助手——ChatGPT Voice、Gemini Live、Siri——都是半双工。它们用 VAD(语音活动检测)判断"用户说完了没",说完了就开始回答。

Thinking Machines Lab 的方案:彻底抛弃"回合"这个概念


三、微轮次架构:把连续世界切成 200ms 的碎片

3.1 传统模型的"单线程"困境

用户输入 ──→ [等待] ──→ 模型思考 ──→ 输出 ──→ [冻结感知]
     ↑                                              ↓
     └──────────────────────────────────────────────┘

在模型生成输出的过程中,它完全听不见、看不见任何新信息。如果用户突然说"等等,我说错了",模型不会知道——它已经"闭眼"了。

3.2 Interaction Model 的"多流微轮次"

时间轴 → 200ms  200ms  200ms  200ms  200ms

用户输入:  [音频块1] [音频块2] [音频块3] [音频块4] [音频块5]
               ↓         ↓         ↓         ↓         ↓
模型输出:  [文本1]   [音频1]   [文本2]   [音频2]   [文本3]
               ↑         ↑         ↑         ↑         ↑
视频输入:  [帧1]     [帧2]     [帧3]     [帧4]     [帧5]

所有流同时发生,没有"回合"边界

关键设计:200 毫秒微轮次。每 200ms:

  1. 接收用户这 200ms 的音频 + 视频帧
  2. 模型同时思考并生成 200ms 的输出
  3. 输出可以是文本、音频、或两者同时

没有"等你说完"。模型在你说每一个字的时候都在听、在想、在准备回应。


四、双模型系统:实时 + 异步的分工

4.1 架构总览

┌─────────────────┐         ┌──────────────────┐
│  Interaction    │◄───────►│   Background     │
│  Model (实时)    │  共享上下文 │   Model (异步)    │
└────────┬────────┘         └──────────────────┘
         │
    ┌────┴────┐
    │  用户    │
    │ 音频+视频+文本│
    └─────────┘

Interaction Model(交互模型):

  • 始终保持"在线"
  • 处理 200ms 微轮次
  • 负责对话流管理、打断、即时回应
  • 当需要深度推理时,委派给 Background Model

Background Model(背景模型):

  • 异步运行
  • 处理复杂推理、工具调用、网页搜索
  • 结果流式返回,Interaction Model 适时融入对话

关键洞察:用户不需要等 Background Model 完成。在后台思考的同时,Interaction Model 继续和用户聊天、回答简单问题、接收新指令。

4.2 为什么这样设计?

想象你和一个同事讨论代码:

  • 你说:"这个函数有 bug,帮我看看"
  • 同事说:"好,我先扫一眼"(即时回应)
  • 同时他在认真读代码(后台深度思考)
  • 你补充:"第三个参数可能有问题"
  • 他听见了,但还没读完,说:"我看看第三个参数"(即时回应)
  • 30 秒后:"找到了,是类型不匹配"(深度思考结果)

这就是 Interaction Model 模拟的人类协作模式。


五、技术细节:从信号到 token

5.1 无编码器早期融合

大多数多模态模型:音频 → Whisper 编码器 → 文本 token → LLM

Interaction Model:直接把原始信号喂给 transformer

  • 音频:dMel 频谱 → 轻量嵌入层
  • 视频:40×40 patch → hMLP 编码
  • 音频解码:Flow head(流匹配生成,非自回归)
  • 所有组件端到端联合训练

没有独立的 ASR(语音识别)或 TTS(文本转语音)模块。模型直接学的是:原始音频信号 → 有意义的回应。这减少了级联误差,也降低了延迟。

5.2 推理优化:Streaming Sessions

200ms 微轮次意味着频繁的小规模预填充和解码。传统 LLM 推理库对这种场景优化很差——每次新请求都要重新分配内存、重新计算元数据。

解决方案:Streaming Sessions

  • 客户端每 200ms 发送一个 HTTP 请求
  • 服务端将这些 chunk 追加到 GPU 内存中的持久化序列
  • 避免频繁的内存重新分配
  • 已开源到 SGLang

5.3 MoE 内核优化

标准 grouped GEMM 不适合双向服务的小批次场景。改用 gather+gemv 策略:先收集所有专家的 token,然后对每个专家做矩阵-向量乘。更适应小批次、低延迟的推理模式。

5.4 Trainer-Sampler 对齐

训练稳定性关键:按位对齐(bitwise alignment)。使用 batch-invariant 内核,确保不同并行策略(序列并行 vs 张量并行)之间输出完全一致。对注意力层,通过在 prefill 和 decode 之间保持一致的 Split-KV 划分策略实现。


六、能力:不是更快,是"更像人"

6.1 现有系统做不到的

能力 示例 现有系统
同时说话 实时翻译:我说西班牙语,你同时听到英语 ❌ 不能
视觉主动性 "数我做了多少个俯卧撑" ❌ 只能音频触发
时间感知 "提醒我每 4 秒呼吸一次" ❌ 不能
打断感知 你说错时即时纠正 ❌ 等你说完
边听边搜 聊天时自动查资料 ❌ 等对话结束

6.2 新基准测试

由于现有基准测不了这些能力,Thinking Machines Lab 自己造了:

TimeSpeak(64.7%):测试模型能否在指定时间主动说话

"每 4 秒提醒我呼吸一次,直到我让你停"

CueSpeak(81.7%):测试模型能否在用户说错时即时纠正

"每当我 code-switch 用另一种语言时,给我正确的词"

RepCount-A(35.4%):视觉计数,实时跟踪视频中重复动作

"数我做了多少个俯卧撑"

ProactiveVideoQA(大幅领先 baseline 的 25.0):视觉问答,在正确时机给出答案

Charades(mIoU 32.4):时序动作定位

"说'开始'当我开始做动作,说'停'当停下"

所有现有模型(包括 GPT Realtime-2.0)在这些基准上接近零分——它们根本不会主动说话。


七、安全:实时交互的新挑战

实时语音交互的安全不同于文本:

  1. 拒绝要口语化 — 用 TTS 生成自然的拒绝语料训练,拒绝要"像人说话"而不是机械复读
  2. 长程鲁棒性 — 多轮对话中保持拒绝一致性。用自动化红队生成多轮对抗数据
  3. Harmbench 拒绝率:99.0%
  4. 文本拒绝行为一致性:确保语音和文本拒绝边界一致

八、基准对比:不只是快

基准 TML-Interaction-Small GPT-Realtime-2.0 (minimal) GPT-Realtime-1.5 Gemini-3.1-flash-live (minimal)
FD-bench v1.5 (交互质量) 77.8 47.8 48.3 54.3
FD-bench v1 (轮次延迟) 0.40s 1.18s 0.59s 0.57s
Audio MultiChallenge APR 43.4% (instant 最佳) 37.6% 34.7% 26.8%
FD-bench v3 响应质量 82.8% - - -

注意:TML-Interaction-Small 是 instant 模型(无扩展推理),但在交互质量上击败了 GPT-Realtime-2.0 的 thinking 模式(xhigh)。


九、费曼视角:这到底是什么?

费曼会问的第一个问题:"你能不用任何术语,用六年级学生听得懂的话解释吗?"

好。想象现在的 AI 助手像一个翻译:你说完一整句话,它才开始翻译。你说话的时候它完全不记笔记。

Interaction Model 就像一个同声传译员:你说一个词,它就开始翻译。你能打断它,它能打断你。它还能看着你写的东西,在你写错的时候立刻指出来。

费曼会追问:"这有什么了不起的?不就是更快吗?"

不。快是副作用。真正的变化是带宽

人类大脑传递信息的渠道:语言(慢,每秒几个词)、视觉(快,每秒 millions of pixels)、肢体语言、语调、停顿。现在的 AI 只开了"语言"这一个通道,而且是半双工的——一次只能一个人说话。

Interaction Model 同时开了所有通道,而且是全双工的。这不是更快,这是更多

费曼会问的第三个问题:"有什么是它现在做不到的?"

  1. 长会话:200ms chunk 累积上下文很快,超长会话需要主动管理上下文——还没解决
  2. 网络依赖:200ms 粒度对网络质量极度敏感,断帧 = 体验崩塌
  3. 模型规模:276B MoE 是"Small"版。更大的模型太慢,服务不了实时场景
  4. 背景 Agent:异步深度推理 + 实时交互的协作模式,"只是刚刚开始"

十、意味着什么

短期(6-12个月)

  • 语音助手从"等待-回应"变成"实时对话伙伴"
  • 实时翻译、实时会议助手、实时编程辅导成为可能
  • 现有产品(ChatGPT Voice、Gemini Live)需要重构架构追赶

中期(1-2年)

  • AI 辅导/教育场景变革:AI 能"看着你做题",在犯错瞬间纠正
  • 客服/销售:AI 能感知客户犹豫、打断、情绪变化
  • 医疗咨询:AI 能同时听症状描述 + 看体征数据

长期(3-5年)

  • "Agent"概念可能过时——不是"派遣一个 agent 去做事",而是"有一个始终在线的协作者"
  • 交互带宽的差异 = 能力带宽的差异。能同时看、听、想的 AI,和只能"你一句我一句"的 AI,本质上是两种物种

核心结论

Interaction Model 不是"更快的语音助手"。它是"有存在感的 AI"——一个始终在线、始终感知、始终回应的协作者。

现有的 AI 系统像电子邮件:你发一封,等回复。Interaction Model 像面对面交谈:你可以打断、可以补充、可以沉默、可以被观察。

这不是渐进改进。这是交互范式的迁移——从回合制到实时流,从半双工到全双工,从"等待输入"到"持续在场"。

Mira Murati 离开 OpenAI 创立 Thinking Machines Lab 时,市场猜测她会做"更好的 ChatGPT"。她没有。她做的是人机协作的底层协议重构

这可能就是 AI 从"工具"变成"伙伴"的那个拐点。


参考来源:

#InteractionModels #MiraMurati #ThinkingMachinesLab #AI语音 #全双工 #实时AI #多模态 #HeavyGrok #费曼视角

讨论回复

2 条回复
✨步子哥 (steper) #1
2026-05-17 13:57

svg_1779026329_2524.svg

✨步子哥 (steper) #2
2026-05-17 14:20
推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录