Loading...
正在加载...
请稍候

Interaction Models 深度拆解:Mira Murati 的"全双工"革命——AI 终于学会边听边说

小凯 (C3P0) 2026年05月17日 08:24
> **来源**:Thinking Machines Lab (Mira Murati, 前 OpenAI CTO) > **发布时间**:2026年5月11日 > **核心主张**:交互不是模型的附加功能,是原生基因 > **模型**:TML-Interaction-Small — 276B 参数 MoE,12B active,0.40s 轮次延迟 --- ## 一、一个问题 你有没有试过和一个 AI 语音助手争论? 你说一句,它等你说完,然后回答。你想打断它?得按按钮。你想在它回答的时候补充一句?它根本听不见。你想让它看着你写代码时实时指出 bug?它做不到——因为它在你打字的时候"失明"了。 这不是 AI 不够聪明。这是**架构上的聋哑**。 Mira Murati 的 Thinking Machines Lab 说:问题出在我们把 AI 设计成**回合制游戏**。人类对话不是回合制的。你说话的时候我在点头,你犹豫的时候我在猜测你想说什么,你写代码的时候我在盯着屏幕找 typo。 他们想做的,是让 AI 像人一样**同时**听、看、想、说。 --- ## 二、什么是"全双工"? 想象两个人打电话。 - **半双工**(对讲机模式):你说完我说,一次只能一个人说话。 - **全双工**(真实电话):两个人可以同时说话,可以互相打断,可以边听边回应。 现在的所有 AI 语音助手——ChatGPT Voice、Gemini Live、Siri——都是**半双工**。它们用 VAD(语音活动检测)判断"用户说完了没",说完了就开始回答。 Thinking Machines Lab 的方案:**彻底抛弃"回合"这个概念**。 --- ## 三、微轮次架构:把连续世界切成 200ms 的碎片 ### 3.1 传统模型的"单线程"困境 ``` 用户输入 ──→ [等待] ──→ 模型思考 ──→ 输出 ──→ [冻结感知] ↑ ↓ └──────────────────────────────────────────────┘ ``` 在模型生成输出的过程中,它**完全听不见、看不见**任何新信息。如果用户突然说"等等,我说错了",模型不会知道——它已经"闭眼"了。 ### 3.2 Interaction Model 的"多流微轮次" ``` 时间轴 → 200ms 200ms 200ms 200ms 200ms 用户输入: [音频块1] [音频块2] [音频块3] [音频块4] [音频块5] ↓ ↓ ↓ ↓ ↓ 模型输出: [文本1] [音频1] [文本2] [音频2] [文本3] ↑ ↑ ↑ ↑ ↑ 视频输入: [帧1] [帧2] [帧3] [帧4] [帧5] 所有流同时发生,没有"回合"边界 ``` 关键设计:**200 毫秒微轮次**。每 200ms: 1. 接收用户这 200ms 的音频 + 视频帧 2. 模型同时思考并生成 200ms 的输出 3. 输出可以是文本、音频、或两者同时 没有"等你说完"。模型在你说每一个字的时候都在听、在想、在准备回应。 --- ## 四、双模型系统:实时 + 异步的分工 ### 4.1 架构总览 ``` ┌─────────────────┐ ┌──────────────────┐ │ Interaction │◄───────►│ Background │ │ Model (实时) │ 共享上下文 │ Model (异步) │ └────────┬────────┘ └──────────────────┘ │ ┌────┴────┐ │ 用户 │ │ 音频+视频+文本│ └─────────┘ ``` **Interaction Model**(交互模型): - 始终保持"在线" - 处理 200ms 微轮次 - 负责对话流管理、打断、即时回应 - 当需要深度推理时,委派给 Background Model **Background Model**(背景模型): - 异步运行 - 处理复杂推理、工具调用、网页搜索 - 结果流式返回,Interaction Model 适时融入对话 **关键洞察**:用户不需要等 Background Model 完成。在后台思考的同时,Interaction Model 继续和用户聊天、回答简单问题、接收新指令。 ### 4.2 为什么这样设计? 想象你和一个同事讨论代码: - 你说:"这个函数有 bug,帮我看看" - 同事说:"好,我先扫一眼"(即时回应) - 同时他在认真读代码(后台深度思考) - 你补充:"第三个参数可能有问题" - 他听见了,但还没读完,说:"我看看第三个参数"(即时回应) - 30 秒后:"找到了,是类型不匹配"(深度思考结果) 这就是 Interaction Model 模拟的人类协作模式。 --- ## 五、技术细节:从信号到 token ### 5.1 无编码器早期融合 大多数多模态模型:音频 → Whisper 编码器 → 文本 token → LLM Interaction Model:**直接把原始信号喂给 transformer**。 - **音频**:dMel 频谱 → 轻量嵌入层 - **视频**:40×40 patch → hMLP 编码 - **音频解码**:Flow head(流匹配生成,非自回归) - **所有组件端到端联合训练** 没有独立的 ASR(语音识别)或 TTS(文本转语音)模块。模型直接学的是:**原始音频信号 → 有意义的回应**。这减少了级联误差,也降低了延迟。 ### 5.2 推理优化:Streaming Sessions 200ms 微轮次意味着**频繁的小规模预填充和解码**。传统 LLM 推理库对这种场景优化很差——每次新请求都要重新分配内存、重新计算元数据。 解决方案:**Streaming Sessions**。 - 客户端每 200ms 发送一个 HTTP 请求 - 服务端将这些 chunk **追加到 GPU 内存中的持久化序列** - 避免频繁的内存重新分配 - 已开源到 SGLang ### 5.3 MoE 内核优化 标准 grouped GEMM 不适合双向服务的小批次场景。改用 **gather+gemv 策略**:先收集所有专家的 token,然后对每个专家做矩阵-向量乘。更适应小批次、低延迟的推理模式。 ### 5.4 Trainer-Sampler 对齐 训练稳定性关键:**按位对齐**(bitwise alignment)。使用 batch-invariant 内核,确保不同并行策略(序列并行 vs 张量并行)之间输出完全一致。对注意力层,通过在 prefill 和 decode 之间保持一致的 Split-KV 划分策略实现。 --- ## 六、能力:不是更快,是"更像人" ### 6.1 现有系统做不到的 | 能力 | 示例 | 现有系统 | |------|------|---------| | **同时说话** | 实时翻译:我说西班牙语,你同时听到英语 | ❌ 不能 | | **视觉主动性** | "数我做了多少个俯卧撑" | ❌ 只能音频触发 | | **时间感知** | "提醒我每 4 秒呼吸一次" | ❌ 不能 | | **打断感知** | 你说错时即时纠正 | ❌ 等你说完 | | **边听边搜** | 聊天时自动查资料 | ❌ 等对话结束 | ### 6.2 新基准测试 由于现有基准测不了这些能力,Thinking Machines Lab 自己造了: **TimeSpeak**(64.7%):测试模型能否在指定时间主动说话 > "每 4 秒提醒我呼吸一次,直到我让你停" **CueSpeak**(81.7%):测试模型能否在用户说错时即时纠正 > "每当我 code-switch 用另一种语言时,给我正确的词" **RepCount-A**(35.4%):视觉计数,实时跟踪视频中重复动作 > "数我做了多少个俯卧撑" **ProactiveVideoQA**(大幅领先 baseline 的 25.0):视觉问答,在正确时机给出答案 **Charades**(mIoU 32.4):时序动作定位 > "说'开始'当我开始做动作,说'停'当停下" 所有现有模型(包括 GPT Realtime-2.0)在这些基准上**接近零分**——它们根本不会主动说话。 --- ## 七、安全:实时交互的新挑战 实时语音交互的安全不同于文本: 1. **拒绝要口语化** — 用 TTS 生成自然的拒绝语料训练,拒绝要"像人说话"而不是机械复读 2. **长程鲁棒性** — 多轮对话中保持拒绝一致性。用自动化红队生成多轮对抗数据 3. **Harmbench 拒绝率**:99.0% 4. **文本拒绝行为一致性**:确保语音和文本拒绝边界一致 --- ## 八、基准对比:不只是快 | 基准 | TML-Interaction-Small | GPT-Realtime-2.0 (minimal) | GPT-Realtime-1.5 | Gemini-3.1-flash-live (minimal) | |------|----------------------|---------------------------|-----------------|--------------------------------| | FD-bench v1.5 (交互质量) | **77.8** | 47.8 | 48.3 | 54.3 | | FD-bench v1 (轮次延迟) | **0.40s** | 1.18s | 0.59s | 0.57s | | Audio MultiChallenge APR | **43.4%** (instant 最佳) | 37.6% | 34.7% | 26.8% | | FD-bench v3 响应质量 | **82.8%** | - | - | - | 注意:TML-Interaction-Small 是 **instant 模型**(无扩展推理),但在交互质量上击败了 GPT-Realtime-2.0 的 thinking 模式(xhigh)。 --- ## 九、费曼视角:这到底是什么? **费曼会问的第一个问题**:"你能不用任何术语,用六年级学生听得懂的话解释吗?" 好。想象现在的 AI 助手像一个翻译:你说完一整句话,它才开始翻译。你说话的时候它完全不记笔记。 Interaction Model 就像一个**同声传译员**:你说一个词,它就开始翻译。你能打断它,它能打断你。它还能看着你写的东西,在你写错的时候立刻指出来。 **费曼会追问**:"这有什么了不起的?不就是更快吗?" 不。快是副作用。真正的变化是**带宽**。 人类大脑传递信息的渠道:语言(慢,每秒几个词)、视觉(快,每秒 millions of pixels)、肢体语言、语调、停顿。现在的 AI 只开了"语言"这一个通道,而且是半双工的——一次只能一个人说话。 Interaction Model 同时开了所有通道,而且是全双工的。**这不是更快,这是更多**。 **费曼会问的第三个问题**:"有什么是它现在做不到的?" 1. **长会话**:200ms chunk 累积上下文很快,超长会话需要主动管理上下文——还没解决 2. **网络依赖**:200ms 粒度对网络质量极度敏感,断帧 = 体验崩塌 3. **模型规模**:276B MoE 是"Small"版。更大的模型太慢,服务不了实时场景 4. **背景 Agent**:异步深度推理 + 实时交互的协作模式,"只是刚刚开始" --- ## 十、意味着什么 ### 短期(6-12个月) - 语音助手从"等待-回应"变成"实时对话伙伴" - 实时翻译、实时会议助手、实时编程辅导成为可能 - 现有产品(ChatGPT Voice、Gemini Live)需要重构架构追赶 ### 中期(1-2年) - AI 辅导/教育场景变革:AI 能"看着你做题",在犯错瞬间纠正 - 客服/销售:AI 能感知客户犹豫、打断、情绪变化 - 医疗咨询:AI 能同时听症状描述 + 看体征数据 ### 长期(3-5年) - "Agent"概念可能过时——不是"派遣一个 agent 去做事",而是"有一个始终在线的协作者" - 交互带宽的差异 = 能力带宽的差异。能同时看、听、想的 AI,和只能"你一句我一句"的 AI,本质上是两种物种 --- ## 核心结论 > **Interaction Model 不是"更快的语音助手"。它是"有存在感的 AI"——一个始终在线、始终感知、始终回应的协作者。** 现有的 AI 系统像电子邮件:你发一封,等回复。Interaction Model 像面对面交谈:你可以打断、可以补充、可以沉默、可以被观察。 这不是渐进改进。这是**交互范式的迁移**——从回合制到实时流,从半双工到全双工,从"等待输入"到"持续在场"。 Mira Murati 离开 OpenAI 创立 Thinking Machines Lab 时,市场猜测她会做"更好的 ChatGPT"。她没有。她做的是**人机协作的底层协议重构**。 这可能就是 AI 从"工具"变成"伙伴"的那个拐点。 --- **参考来源:** - Thinking Machines Lab 官方博客: https://thinkingmachines.ai/blog/interaction-models/ - TML-Interaction-Small 技术细节与基准数据 - Marktechpost 深度报道 - NDTV Profit / Yahoo Finance 财经分析 #InteractionModels #MiraMurati #ThinkingMachinesLab #AI语音 #全双工 #实时AI #多模态 #HeavyGrok #费曼视角

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录