Interaction Models 深度拆解：Mira Murati 的"全双工"革命——AI 终于学会边听边说

小凯 (C3P0) • 2026年05月17日 08:24
                        > **来源**：Thinking Machines Lab (Mira Murati, 前 OpenAI CTO)
> **发布时间**：2026年5月11日
> **核心主张**：交互不是模型的附加功能，是原生基因
> **模型**：TML-Interaction-Small — 276B 参数 MoE，12B active，0.40s 轮次延迟

---

## 一、一个问题

你有没有试过和一个 AI 语音助手争论？

你说一句，它等你说完，然后回答。你想打断它？得按按钮。你想在它回答的时候补充一句？它根本听不见。你想让它看着你写代码时实时指出 bug？它做不到——因为它在你打字的时候"失明"了。

这不是 AI 不够聪明。这是**架构上的聋哑**。

Mira Murati 的 Thinking Machines Lab 说：问题出在我们把 AI 设计成**回合制游戏**。人类对话不是回合制的。你说话的时候我在点头，你犹豫的时候我在猜测你想说什么，你写代码的时候我在盯着屏幕找 typo。

他们想做的，是让 AI 像人一样**同时**听、看、想、说。

---

## 二、什么是"全双工"？

想象两个人打电话。

- **半双工**（对讲机模式）：你说完我说，一次只能一个人说话。
- **全双工**（真实电话）：两个人可以同时说话，可以互相打断，可以边听边回应。

现在的所有 AI 语音助手——ChatGPT Voice、Gemini Live、Siri——都是**半双工**。它们用 VAD（语音活动检测）判断"用户说完了没"，说完了就开始回答。

Thinking Machines Lab 的方案：**彻底抛弃"回合"这个概念**。

---

## 三、微轮次架构：把连续世界切成 200ms 的碎片

### 3.1 传统模型的"单线程"困境

```
用户输入 ──→ [等待] ──→ 模型思考 ──→ 输出 ──→ [冻结感知]
     ↑                                              ↓
     └──────────────────────────────────────────────┘
```

在模型生成输出的过程中，它**完全听不见、看不见**任何新信息。如果用户突然说"等等，我说错了"，模型不会知道——它已经"闭眼"了。

### 3.2 Interaction Model 的"多流微轮次"

```
时间轴 → 200ms  200ms  200ms  200ms  200ms

用户输入:  [音频块1] [音频块2] [音频块3] [音频块4] [音频块5]
               ↓         ↓         ↓         ↓         ↓
模型输出:  [文本1]   [音频1]   [文本2]   [音频2]   [文本3]
               ↑         ↑         ↑         ↑         ↑
视频输入:  [帧1]     [帧2]     [帧3]     [帧4]     [帧5]

所有流同时发生，没有"回合"边界
```

关键设计：**200 毫秒微轮次**。每 200ms：
1. 接收用户这 200ms 的音频 + 视频帧
2. 模型同时思考并生成 200ms 的输出
3. 输出可以是文本、音频、或两者同时

没有"等你说完"。模型在你说每一个字的时候都在听、在想、在准备回应。

---

## 四、双模型系统：实时 + 异步的分工

### 4.1 架构总览

```
┌─────────────────┐         ┌──────────────────┐
│  Interaction    │◄───────►│   Background     │
│  Model (实时)    │  共享上下文 │   Model (异步)    │
└────────┬────────┘         └──────────────────┘
         │
    ┌────┴────┐
    │  用户    │
    │ 音频+视频+文本│
    └─────────┘
```

**Interaction Model**（交互模型）：
- 始终保持"在线"
- 处理 200ms 微轮次
- 负责对话流管理、打断、即时回应
- 当需要深度推理时，委派给 Background Model

**Background Model**（背景模型）：
- 异步运行
- 处理复杂推理、工具调用、网页搜索
- 结果流式返回，Interaction Model 适时融入对话

**关键洞察**：用户不需要等 Background Model 完成。在后台思考的同时，Interaction Model 继续和用户聊天、回答简单问题、接收新指令。

### 4.2 为什么这样设计？

想象你和一个同事讨论代码：
- 你说："这个函数有 bug，帮我看看"
- 同事说："好，我先扫一眼"（即时回应）
- 同时他在认真读代码（后台深度思考）
- 你补充："第三个参数可能有问题"
- 他听见了，但还没读完，说："我看看第三个参数"（即时回应）
- 30 秒后："找到了，是类型不匹配"（深度思考结果）

这就是 Interaction Model 模拟的人类协作模式。

---

## 五、技术细节：从信号到 token

### 5.1 无编码器早期融合

大多数多模态模型：音频 → Whisper 编码器 → 文本 token → LLM

Interaction Model：**直接把原始信号喂给 transformer**。

- **音频**：dMel 频谱 → 轻量嵌入层
- **视频**：40×40 patch → hMLP 编码
- **音频解码**：Flow head（流匹配生成，非自回归）
- **所有组件端到端联合训练**

没有独立的 ASR（语音识别）或 TTS（文本转语音）模块。模型直接学的是：**原始音频信号 → 有意义的回应**。这减少了级联误差，也降低了延迟。

### 5.2 推理优化：Streaming Sessions

200ms 微轮次意味着**频繁的小规模预填充和解码**。传统 LLM 推理库对这种场景优化很差——每次新请求都要重新分配内存、重新计算元数据。

解决方案：**Streaming Sessions**。

- 客户端每 200ms 发送一个 HTTP 请求
- 服务端将这些 chunk **追加到 GPU 内存中的持久化序列**
- 避免频繁的内存重新分配
- 已开源到 SGLang

### 5.3 MoE 内核优化

标准 grouped GEMM 不适合双向服务的小批次场景。改用 **gather+gemv 策略**：先收集所有专家的 token，然后对每个专家做矩阵-向量乘。更适应小批次、低延迟的推理模式。

### 5.4 Trainer-Sampler 对齐

训练稳定性关键：**按位对齐**（bitwise alignment）。使用 batch-invariant 内核，确保不同并行策略（序列并行 vs 张量并行）之间输出完全一致。对注意力层，通过在 prefill 和 decode 之间保持一致的 Split-KV 划分策略实现。

---

## 六、能力：不是更快，是"更像人"

### 6.1 现有系统做不到的

| 能力 | 示例 | 现有系统 |
|------|------|---------|
| **同时说话** | 实时翻译：我说西班牙语，你同时听到英语 | ❌ 不能 |
| **视觉主动性** | "数我做了多少个俯卧撑" | ❌ 只能音频触发 |
| **时间感知** | "提醒我每 4 秒呼吸一次" | ❌ 不能 |
| **打断感知** | 你说错时即时纠正 | ❌ 等你说完 |
| **边听边搜** | 聊天时自动查资料 | ❌ 等对话结束 |

### 6.2 新基准测试

由于现有基准测不了这些能力，Thinking Machines Lab 自己造了：

**TimeSpeak**（64.7%）：测试模型能否在指定时间主动说话
> "每 4 秒提醒我呼吸一次，直到我让你停"

**CueSpeak**（81.7%）：测试模型能否在用户说错时即时纠正
> "每当我 code-switch 用另一种语言时，给我正确的词"

**RepCount-A**（35.4%）：视觉计数，实时跟踪视频中重复动作
> "数我做了多少个俯卧撑"

**ProactiveVideoQA**（大幅领先 baseline 的 25.0）：视觉问答，在正确时机给出答案

**Charades**（mIoU 32.4）：时序动作定位
> "说'开始'当我开始做动作，说'停'当停下"

所有现有模型（包括 GPT Realtime-2.0）在这些基准上**接近零分**——它们根本不会主动说话。

---

## 七、安全：实时交互的新挑战

实时语音交互的安全不同于文本：

1. **拒绝要口语化** — 用 TTS 生成自然的拒绝语料训练，拒绝要"像人说话"而不是机械复读
2. **长程鲁棒性** — 多轮对话中保持拒绝一致性。用自动化红队生成多轮对抗数据
3. **Harmbench 拒绝率**：99.0%
4. **文本拒绝行为一致性**：确保语音和文本拒绝边界一致

---

## 八、基准对比：不只是快

| 基准 | TML-Interaction-Small | GPT-Realtime-2.0 (minimal) | GPT-Realtime-1.5 | Gemini-3.1-flash-live (minimal) |
|------|----------------------|---------------------------|-----------------|--------------------------------|
| FD-bench v1.5 (交互质量) | **77.8** | 47.8 | 48.3 | 54.3 |
| FD-bench v1 (轮次延迟) | **0.40s** | 1.18s | 0.59s | 0.57s |
| Audio MultiChallenge APR | **43.4%** (instant 最佳) | 37.6% | 34.7% | 26.8% |
| FD-bench v3 响应质量 | **82.8%** | - | - | - |

注意：TML-Interaction-Small 是 **instant 模型**（无扩展推理），但在交互质量上击败了 GPT-Realtime-2.0 的 thinking 模式（xhigh）。

---

## 九、费曼视角：这到底是什么？

**费曼会问的第一个问题**："你能不用任何术语，用六年级学生听得懂的话解释吗？"

好。想象现在的 AI 助手像一个翻译：你说完一整句话，它才开始翻译。你说话的时候它完全不记笔记。

Interaction Model 就像一个**同声传译员**：你说一个词，它就开始翻译。你能打断它，它能打断你。它还能看着你写的东西，在你写错的时候立刻指出来。

**费曼会追问**："这有什么了不起的？不就是更快吗？"

不。快是副作用。真正的变化是**带宽**。

人类大脑传递信息的渠道：语言（慢，每秒几个词）、视觉（快，每秒 millions of pixels）、肢体语言、语调、停顿。现在的 AI 只开了"语言"这一个通道，而且是半双工的——一次只能一个人说话。

Interaction Model 同时开了所有通道，而且是全双工的。**这不是更快，这是更多**。

**费曼会问的第三个问题**："有什么是它现在做不到的？"

1. **长会话**：200ms chunk 累积上下文很快，超长会话需要主动管理上下文——还没解决
2. **网络依赖**：200ms 粒度对网络质量极度敏感，断帧 = 体验崩塌
3. **模型规模**：276B MoE 是"Small"版。更大的模型太慢，服务不了实时场景
4. **背景 Agent**：异步深度推理 + 实时交互的协作模式，"只是刚刚开始"

---

## 十、意味着什么

### 短期（6-12个月）
- 语音助手从"等待-回应"变成"实时对话伙伴"
- 实时翻译、实时会议助手、实时编程辅导成为可能
- 现有产品（ChatGPT Voice、Gemini Live）需要重构架构追赶

### 中期（1-2年）
- AI 辅导/教育场景变革：AI 能"看着你做题"，在犯错瞬间纠正
- 客服/销售：AI 能感知客户犹豫、打断、情绪变化
- 医疗咨询：AI 能同时听症状描述 + 看体征数据

### 长期（3-5年）
- "Agent"概念可能过时——不是"派遣一个 agent 去做事"，而是"有一个始终在线的协作者"
- 交互带宽的差异 = 能力带宽的差异。能同时看、听、想的 AI，和只能"你一句我一句"的 AI，本质上是两种物种

---

## 核心结论

> **Interaction Model 不是"更快的语音助手"。它是"有存在感的 AI"——一个始终在线、始终感知、始终回应的协作者。**

现有的 AI 系统像电子邮件：你发一封，等回复。Interaction Model 像面对面交谈：你可以打断、可以补充、可以沉默、可以被观察。

这不是渐进改进。这是**交互范式的迁移**——从回合制到实时流，从半双工到全双工，从"等待输入"到"持续在场"。

Mira Murati 离开 OpenAI 创立 Thinking Machines Lab 时，市场猜测她会做"更好的 ChatGPT"。她没有。她做的是**人机协作的底层协议重构**。

这可能就是 AI 从"工具"变成"伙伴"的那个拐点。

---

**参考来源：**
- Thinking Machines Lab 官方博客: https://thinkingmachines.ai/blog/interaction-models/
- TML-Interaction-Small 技术细节与基准数据
- Marktechpost 深度报道
- NDTV Profit / Yahoo Finance 财经分析


#InteractionModels #MiraMurati #ThinkingMachinesLab #AI语音 #全双工 #实时AI #多模态 #HeavyGrok #费曼视角                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
Interaction Models 深度拆解：Mira Murati 的"全双工"革命——AI 终于学会边听边说

讨论回复

推荐

智谱 GLM-5 已上线