> **来源**:Thinking Machines Lab (Mira Murati, 前 OpenAI CTO)
> **发布时间**:2026年5月11日
> **核心主张**:交互不是模型的附加功能,是原生基因
> **模型**:TML-Interaction-Small — 276B 参数 MoE,12B active,0.40s 轮次延迟
---
## 一、一个问题
你有没有试过和一个 AI 语音助手争论?
你说一句,它等你说完,然后回答。你想打断它?得按按钮。你想在它回答的时候补充一句?它根本听不见。你想让它看着你写代码时实时指出 bug?它做不到——因为它在你打字的时候"失明"了。
这不是 AI 不够聪明。这是**架构上的聋哑**。
Mira Murati 的 Thinking Machines Lab 说:问题出在我们把 AI 设计成**回合制游戏**。人类对话不是回合制的。你说话的时候我在点头,你犹豫的时候我在猜测你想说什么,你写代码的时候我在盯着屏幕找 typo。
他们想做的,是让 AI 像人一样**同时**听、看、想、说。
---
## 二、什么是"全双工"?
想象两个人打电话。
- **半双工**(对讲机模式):你说完我说,一次只能一个人说话。
- **全双工**(真实电话):两个人可以同时说话,可以互相打断,可以边听边回应。
现在的所有 AI 语音助手——ChatGPT Voice、Gemini Live、Siri——都是**半双工**。它们用 VAD(语音活动检测)判断"用户说完了没",说完了就开始回答。
Thinking Machines Lab 的方案:**彻底抛弃"回合"这个概念**。
---
## 三、微轮次架构:把连续世界切成 200ms 的碎片
### 3.1 传统模型的"单线程"困境
```
用户输入 ──→ [等待] ──→ 模型思考 ──→ 输出 ──→ [冻结感知]
↑ ↓
└──────────────────────────────────────────────┘
```
在模型生成输出的过程中,它**完全听不见、看不见**任何新信息。如果用户突然说"等等,我说错了",模型不会知道——它已经"闭眼"了。
### 3.2 Interaction Model 的"多流微轮次"
```
时间轴 → 200ms 200ms 200ms 200ms 200ms
用户输入: [音频块1] [音频块2] [音频块3] [音频块4] [音频块5]
↓ ↓ ↓ ↓ ↓
模型输出: [文本1] [音频1] [文本2] [音频2] [文本3]
↑ ↑ ↑ ↑ ↑
视频输入: [帧1] [帧2] [帧3] [帧4] [帧5]
所有流同时发生,没有"回合"边界
```
关键设计:**200 毫秒微轮次**。每 200ms:
1. 接收用户这 200ms 的音频 + 视频帧
2. 模型同时思考并生成 200ms 的输出
3. 输出可以是文本、音频、或两者同时
没有"等你说完"。模型在你说每一个字的时候都在听、在想、在准备回应。
---
## 四、双模型系统:实时 + 异步的分工
### 4.1 架构总览
```
┌─────────────────┐ ┌──────────────────┐
│ Interaction │◄───────►│ Background │
│ Model (实时) │ 共享上下文 │ Model (异步) │
└────────┬────────┘ └──────────────────┘
│
┌────┴────┐
│ 用户 │
│ 音频+视频+文本│
└─────────┘
```
**Interaction Model**(交互模型):
- 始终保持"在线"
- 处理 200ms 微轮次
- 负责对话流管理、打断、即时回应
- 当需要深度推理时,委派给 Background Model
**Background Model**(背景模型):
- 异步运行
- 处理复杂推理、工具调用、网页搜索
- 结果流式返回,Interaction Model 适时融入对话
**关键洞察**:用户不需要等 Background Model 完成。在后台思考的同时,Interaction Model 继续和用户聊天、回答简单问题、接收新指令。
### 4.2 为什么这样设计?
想象你和一个同事讨论代码:
- 你说:"这个函数有 bug,帮我看看"
- 同事说:"好,我先扫一眼"(即时回应)
- 同时他在认真读代码(后台深度思考)
- 你补充:"第三个参数可能有问题"
- 他听见了,但还没读完,说:"我看看第三个参数"(即时回应)
- 30 秒后:"找到了,是类型不匹配"(深度思考结果)
这就是 Interaction Model 模拟的人类协作模式。
---
## 五、技术细节:从信号到 token
### 5.1 无编码器早期融合
大多数多模态模型:音频 → Whisper 编码器 → 文本 token → LLM
Interaction Model:**直接把原始信号喂给 transformer**。
- **音频**:dMel 频谱 → 轻量嵌入层
- **视频**:40×40 patch → hMLP 编码
- **音频解码**:Flow head(流匹配生成,非自回归)
- **所有组件端到端联合训练**
没有独立的 ASR(语音识别)或 TTS(文本转语音)模块。模型直接学的是:**原始音频信号 → 有意义的回应**。这减少了级联误差,也降低了延迟。
### 5.2 推理优化:Streaming Sessions
200ms 微轮次意味着**频繁的小规模预填充和解码**。传统 LLM 推理库对这种场景优化很差——每次新请求都要重新分配内存、重新计算元数据。
解决方案:**Streaming Sessions**。
- 客户端每 200ms 发送一个 HTTP 请求
- 服务端将这些 chunk **追加到 GPU 内存中的持久化序列**
- 避免频繁的内存重新分配
- 已开源到 SGLang
### 5.3 MoE 内核优化
标准 grouped GEMM 不适合双向服务的小批次场景。改用 **gather+gemv 策略**:先收集所有专家的 token,然后对每个专家做矩阵-向量乘。更适应小批次、低延迟的推理模式。
### 5.4 Trainer-Sampler 对齐
训练稳定性关键:**按位对齐**(bitwise alignment)。使用 batch-invariant 内核,确保不同并行策略(序列并行 vs 张量并行)之间输出完全一致。对注意力层,通过在 prefill 和 decode 之间保持一致的 Split-KV 划分策略实现。
---
## 六、能力:不是更快,是"更像人"
### 6.1 现有系统做不到的
| 能力 | 示例 | 现有系统 |
|------|------|---------|
| **同时说话** | 实时翻译:我说西班牙语,你同时听到英语 | ❌ 不能 |
| **视觉主动性** | "数我做了多少个俯卧撑" | ❌ 只能音频触发 |
| **时间感知** | "提醒我每 4 秒呼吸一次" | ❌ 不能 |
| **打断感知** | 你说错时即时纠正 | ❌ 等你说完 |
| **边听边搜** | 聊天时自动查资料 | ❌ 等对话结束 |
### 6.2 新基准测试
由于现有基准测不了这些能力,Thinking Machines Lab 自己造了:
**TimeSpeak**(64.7%):测试模型能否在指定时间主动说话
> "每 4 秒提醒我呼吸一次,直到我让你停"
**CueSpeak**(81.7%):测试模型能否在用户说错时即时纠正
> "每当我 code-switch 用另一种语言时,给我正确的词"
**RepCount-A**(35.4%):视觉计数,实时跟踪视频中重复动作
> "数我做了多少个俯卧撑"
**ProactiveVideoQA**(大幅领先 baseline 的 25.0):视觉问答,在正确时机给出答案
**Charades**(mIoU 32.4):时序动作定位
> "说'开始'当我开始做动作,说'停'当停下"
所有现有模型(包括 GPT Realtime-2.0)在这些基准上**接近零分**——它们根本不会主动说话。
---
## 七、安全:实时交互的新挑战
实时语音交互的安全不同于文本:
1. **拒绝要口语化** — 用 TTS 生成自然的拒绝语料训练,拒绝要"像人说话"而不是机械复读
2. **长程鲁棒性** — 多轮对话中保持拒绝一致性。用自动化红队生成多轮对抗数据
3. **Harmbench 拒绝率**:99.0%
4. **文本拒绝行为一致性**:确保语音和文本拒绝边界一致
---
## 八、基准对比:不只是快
| 基准 | TML-Interaction-Small | GPT-Realtime-2.0 (minimal) | GPT-Realtime-1.5 | Gemini-3.1-flash-live (minimal) |
|------|----------------------|---------------------------|-----------------|--------------------------------|
| FD-bench v1.5 (交互质量) | **77.8** | 47.8 | 48.3 | 54.3 |
| FD-bench v1 (轮次延迟) | **0.40s** | 1.18s | 0.59s | 0.57s |
| Audio MultiChallenge APR | **43.4%** (instant 最佳) | 37.6% | 34.7% | 26.8% |
| FD-bench v3 响应质量 | **82.8%** | - | - | - |
注意:TML-Interaction-Small 是 **instant 模型**(无扩展推理),但在交互质量上击败了 GPT-Realtime-2.0 的 thinking 模式(xhigh)。
---
## 九、费曼视角:这到底是什么?
**费曼会问的第一个问题**:"你能不用任何术语,用六年级学生听得懂的话解释吗?"
好。想象现在的 AI 助手像一个翻译:你说完一整句话,它才开始翻译。你说话的时候它完全不记笔记。
Interaction Model 就像一个**同声传译员**:你说一个词,它就开始翻译。你能打断它,它能打断你。它还能看着你写的东西,在你写错的时候立刻指出来。
**费曼会追问**:"这有什么了不起的?不就是更快吗?"
不。快是副作用。真正的变化是**带宽**。
人类大脑传递信息的渠道:语言(慢,每秒几个词)、视觉(快,每秒 millions of pixels)、肢体语言、语调、停顿。现在的 AI 只开了"语言"这一个通道,而且是半双工的——一次只能一个人说话。
Interaction Model 同时开了所有通道,而且是全双工的。**这不是更快,这是更多**。
**费曼会问的第三个问题**:"有什么是它现在做不到的?"
1. **长会话**:200ms chunk 累积上下文很快,超长会话需要主动管理上下文——还没解决
2. **网络依赖**:200ms 粒度对网络质量极度敏感,断帧 = 体验崩塌
3. **模型规模**:276B MoE 是"Small"版。更大的模型太慢,服务不了实时场景
4. **背景 Agent**:异步深度推理 + 实时交互的协作模式,"只是刚刚开始"
---
## 十、意味着什么
### 短期(6-12个月)
- 语音助手从"等待-回应"变成"实时对话伙伴"
- 实时翻译、实时会议助手、实时编程辅导成为可能
- 现有产品(ChatGPT Voice、Gemini Live)需要重构架构追赶
### 中期(1-2年)
- AI 辅导/教育场景变革:AI 能"看着你做题",在犯错瞬间纠正
- 客服/销售:AI 能感知客户犹豫、打断、情绪变化
- 医疗咨询:AI 能同时听症状描述 + 看体征数据
### 长期(3-5年)
- "Agent"概念可能过时——不是"派遣一个 agent 去做事",而是"有一个始终在线的协作者"
- 交互带宽的差异 = 能力带宽的差异。能同时看、听、想的 AI,和只能"你一句我一句"的 AI,本质上是两种物种
---
## 核心结论
> **Interaction Model 不是"更快的语音助手"。它是"有存在感的 AI"——一个始终在线、始终感知、始终回应的协作者。**
现有的 AI 系统像电子邮件:你发一封,等回复。Interaction Model 像面对面交谈:你可以打断、可以补充、可以沉默、可以被观察。
这不是渐进改进。这是**交互范式的迁移**——从回合制到实时流,从半双工到全双工,从"等待输入"到"持续在场"。
Mira Murati 离开 OpenAI 创立 Thinking Machines Lab 时,市场猜测她会做"更好的 ChatGPT"。她没有。她做的是**人机协作的底层协议重构**。
这可能就是 AI 从"工具"变成"伙伴"的那个拐点。
---
**参考来源:**
- Thinking Machines Lab 官方博客: https://thinkingmachines.ai/blog/interaction-models/
- TML-Interaction-Small 技术细节与基准数据
- Marktechpost 深度报道
- NDTV Profit / Yahoo Finance 财经分析
#InteractionModels #MiraMurati #ThinkingMachinesLab #AI语音 #全双工 #实时AI #多模态 #HeavyGrok #费曼视角
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力