Thinking Machines Lab 交互模型深度解析

Thinking Machines Lab 交互模型深度解析：从架构革命到部署挑战的全面技术报告

小凯 · 2026-05-17T08:24:32+00:00

> **来源**：Thinking Machines Lab (Mira Murati, 前 OpenAI CTO) > **发布时间**：2026年5月11日 > **核心主张**：交互不是模型的附加功能，是原生基因 > **模型**：TML-Interaction-Small — 276B 参数 MoE，12B active，0.40s 轮次延迟 --- ## 一、一个问题你有没有试过和一个 AI 语音助手争论？你说一句，它等你说完，然后回答。你想打断它？得按按钮。你想在它回答的时候补充一句？它根本听不见。你想让它看着你写代码时实时指出 bug？它做不到——因为它在你打字的时候"失明"了。这不是 AI 不够聪明。这是**架构上的聋哑**。 Mira Murati 的 Thinking Machines Lab 说：问题出在我们把 AI 设计成**回合制游戏**。人类对话不是回合制的。你说话的时候我在点头，你犹豫的时候我在猜测你想说什么，你写代码的时候我在盯着屏幕找 typo。他们想做的，是让 AI 像人一样**同时**听、看、想、说。 --- ## 二、什

一、问题：人机协作的带宽瓶颈

当前主流的AI交互模式本质上是回合制：用户说一句，模型等你说完再回一句。这种“你一句我一句”的对话方式在文本聊天中尚可，但在语音、视频等实时场景下暴露出严重局限。用户无法在模型思考时打断它，也无法在模型回答时补充信息，模型对用户在生成过程中所做的一切“充耳不闻”。正如 Thinking Machines Lab 所指出的，这并非AI不够聪明，而是架构上的聋哑【3†source】。人类对话并非严格交替，而是充满共现（copresence）、即时性（contemporality）和同时性（simultaneity）的实时协作【3†source】。而现有模型将交互视作外部附加，通过语音活动检测（VAD）等组件硬性拼接实时性，这种“拼接式”方案注定会被更强大的通用能力所超越【3†source】。换言之，交互性不应是事后添加的补丁，而应成为模型的原生基因。

二、全双工交互：突破“回合制”桎梏

2.1 传统模型的“单线程”困境

传统对话模型的工作流程可以概括为：用户输入 → 模型等待 → 模型思考 → 模型输出 → 模型感知冻结，直到下一次输入。在模型生成回复期间，它完全听不见也看不见任何新信息。如果用户在模型回答时插话或纠正，模型毫无察觉，因为它的感知在生成过程中是“冻结”的【3†source】。这导致人机协作的带宽极窄：用户的知识、意图和判断很难实时传递给模型，模型的工作过程也难以被用户理解，就像试图通过电子邮件来解决一个需要当面讨论的关键分歧【3†source】。

2.2 微轮次架构：将连续世界切分为200毫秒碎片

Thinking Machines Lab 的解决方案是彻底抛弃“回合”概念，引入“微轮次”（micro-turn）架构。该架构将时间对齐的输入和输出流切分为200毫秒的连续片段【27†source】。每200毫秒，模型同时处理用户这200毫秒的音频和视频帧，并生成200毫秒的输出（可以是文本、音频或两者同时）【36†source】。没有“等你说完”的阶段，模型在用户说出每个字时都在听、在想、在准备回应【36†source】。这种设计实现了全双工交互：模型可以边听边说，边看边回应，无需人工设定的回合边界【36†source】。例如，模型可以在用户说话时插入“嗯”或“我懂了”的回应，也可以在用户停顿时保持沉默等待，而不是在用户一停顿就立即接管对话【14†source】。模型甚至可以与用户同时说话，实现真正的同声传译【14†source】。

2.3 双模型系统：实时+异步的分工

实时交互与深度推理往往存在冲突：要求模型在毫秒级响应，会限制其进行复杂推理的能力。为解决这一矛盾，Thinking Machines Lab 引入了双模型系统：一个始终在线的交互模型（Interaction Model）和一个异步运行的背景模型（Background Model）【36†source】。交互模型负责持续与用户交换信息，处理对话流、即时回应、插话等实时任务；当任务需要更深入的推理、工具调用或长时间规划时，交互模型会将整个对话上下文打包发送给背景模型，由后者在后台异步处理【36†source】。背景模型产生的结果会流式地返回给交互模型，由交互模型在适当时机（例如用户当前未在说话时）无缝地融入对话，而不是生硬地打断用户【36†source】。这种架构相当于前台人格AI + 后台超级推理系统：前台模型保持陪伴感，后台模型提供深度智力支持【14†source】。用户无需等待背景模型完成推理，交互模型可以在后台思考的同时继续与用户对话、回答简单问题或接收新指令，从而实现响应速度与推理深度兼得【36†source】。

三、技术细节：从信号到token的原生融合

3.1 无编码器早期融合

传统多模态模型通常采用后期融合策略：通过大型预训练编码器（如Whisper用于音频，SigLIP用于图像）分别提取特征，再将特征输入语言模型。这种级联方式存在误差累积和延迟增加的问题。Thinking Machines Lab 则选择了早期融合路线，即无编码器设计【36†source】。音频信号以dMel特征形式直接输入，经过轻量级嵌入层处理；图像则被分割为40×40的小块并通过hMLP编码；音频输出通过流式头（flow head）生成【36†source】。所有组件从零开始与Transformer主干联合训练，无需依赖预训练的独立编码器或解码器【36†source】。这意味着模型直接学习原始音频信号 → 有意义回应的映射，减少了级联误差，并降低了延迟【36†source】。这种设计使模型能够原生地处理音频、视频和文本，无需外部TTS或ASR模块的介入。

3.2 推理优化：Streaming Sessions

200毫秒微轮次的架构对推理系统提出了频繁小批量的需求：每200毫秒就要进行一次小规模的预填充和解码。传统LLM推理库对此并不擅长，每次请求都伴随显著的内存重分配和元数据计算开销【36†source】。为解决这一问题，Thinking Machines Lab 实现了Streaming Sessions。客户端每200毫秒发送一个HTTP请求，服务器将这些片段追加到GPU内存中的持久化序列中，避免了频繁的内存重新分配和元数据计算【36†source】。这一创新已部分开源至SGLang推理框架【36†source】。此外，团队还针对双向服务的小批量场景优化了内核：采用gather+gemv策略替代标准的分组GEMM，以更好地适应低延迟推理模式【36†source】。这些系统层面的优化确保了模型在200毫秒粒度下的稳定服务。

3.3 MoE 内核优化

TML-Interaction-Small 采用2760亿参数的混合专家（MoE）架构，其中120亿参数为活跃参数【36†source】。MoE模型在提供巨大容量的同时，也带来了训练和推理的挑战。Thinking Machines Lab 在MoE内核层面进行了优化，以提升训练稳定性和推理效率。他们实现了批量不变的内核，确保在不同并行策略（序列并行 vs. 张量并行）下输出按位对齐，这对训练稳定性至关重要【36†source】。此外，他们还解决了MoE模型中Split-KV注意力机制的累积顺序问题，通过在预填充和解码之间保持一致的划分策略，实现了训练与采样的一致性【36†source】。这些底层优化工作虽然不直观，却是将研究演示转化为可信赖生产系统的关键【16†source】。

3.4 Trainer-Sampler 对齐

在训练过程中，Thinking Machines Lab 强调了Trainer-Sampler对齐的重要性。他们通过使用确定性内核和精心设计的并行策略，确保模型在训练和采样时的行为按位一致，端到端性能开销不到5%【36†source】。这种对齐对于保证模型在部署后行为可预测、可调试至关重要【16†source】。通过这些技术，Thinking Machines Lab 在保持高性能的同时，实现了训练-推理的一致性，为模型的可扩展性和可靠性打下基础。

四、新能力：交互性赋能的质变

原生交互架构带来了质的飞跃，使模型能够胜任许多传统系统无法实现的任务。以下列举几个典型场景：

同时说话：模型可以与用户同时发言，实现真正的实时翻译或实时评论【36†source】。例如，用户讲西班牙语时，模型可以同步将英语翻译插入对话，而无需等待用户说完一句再翻译。

视觉主动性：模型能够根据视觉线索主动发言。例如，当用户请模型“数我做了多少个俯卧撑”时，模型可以在视频中识别用户动作并实时计数，而不再需要用户发出语音指令才开始计数【36†source】。传统系统只能通过语音触发，无法主动响应视频中的事件。

时间感知：模型具备内置的时间感知能力，可以感知实际流逝的时间【36†source】。这意味着模型可以执行诸如“每4秒提醒我呼吸一次”之类的任务，而无需外部计时器。

打断与即时纠正：模型可以在用户说错时立即纠正，或在需要时主动插话【36†source】。例如，当用户在编程时出现错误，模型可以立刻指出；当用户在对话中停顿思考时，模型可以保持沉默等待，而不是在用户一停顿就立即接管对话【14†source】。

边听边搜：模型可以在对话过程中并发地搜索和调用工具，并将结果无缝融入对话【36†source】。这意味着用户在聊天时，模型可以同时查找信息或执行操作，而不会中断对话流。

这些能力在现有系统中几乎无法实现，而交互模型通过原生支持多流、微轮次和双模型架构，将它们变为可能。这标志着AI交互从“工具式响应”向“伙伴式协作”的转变。

五、性能与安全：交互模型的基准与防护

5.1 基准对比：速度与质量的双重提升

TML-Interaction-Small 在多项基准测试中表现出色，尤其是在响应延迟和交互质量上取得了显著领先【36†source】。在FD-bench V1.5（衡量交互质量的基准）上，TML-Interaction-Small 得分77.8，几乎是GPT-Realtime-2.0（最小思考模式）的两倍【36†source】。在FD-bench V1（衡量轮次延迟）上，TML-Interaction-Small 的平均响应延迟仅为0.40秒，远低于GPT-Realtime-2.0的1.18秒和Gemini-3.1-flash-live的0.57秒【36†source】。这表明该模型在保持高响应速度的同时，实现了卓越的交互流畅性。

图1：主要实时AI模型性能对比

在传统智能基准上，TML-Interaction-Small 同样具有竞争力。作为一款“即时模型”（无扩展推理），它在Audio MultiChallenge上的准确率达到43.4%，优于所有非思考模式的即时模型，仅次于开启深度思考的GPT-Realtime-2.0（xhigh模式）【36†source】。这证明了交互模型并未牺牲智能性能，反而通过架构创新实现了智能与交互性的双重提升。

5.2 新基准：填补交互能力评价空白

现有基准主要评估模型的智能和指令跟随能力，对交互质量的衡量非常有限。Thinking Machines Lab 因此开发了新的内部基准，以量化交互模型带来的质变【36†source】。

TimeSpeak：评估模型能否在用户指定的时间点主动发起语音，并输出正确内容。例如：“每4秒提醒我呼吸一次，直到我让你停止。”TML-Interaction-Small 在该基准上的宏平均准确率为64.7%，而GPT-Realtime-2.0（最小模式）仅为4.3%【36†source】。

CueSpeak：评估模型能否在用户发出特定语义提示时，在正确时机做出回应。例如：“每当我用另一种语言说话时，给我正确的原词。”TML-Interaction-Small 的准确率为81.7%，而GPT-Realtime-2.0（最小模式）仅为2.9%【36†source】。

RepCount-A：评估模型在视频流中实时计数重复动作的能力。例如：“数我做俯卧撑的次数。”TML-Interaction-Small 的“相差一”准确率为35.4%，而GPT-Realtime-2.0（最小模式）几乎无法完成，仅为1.3%【36†source】。

ProactiveVideoQA：评估模型在视频答案出现时能否在正确时机给出答案。在ProactiveVideoQA基准上，TML-Interaction-Small 的PAUC@ω=0.5得分为33.5，而基线模型（不回应）为25.0，表明模型能够主动且准确地回答问题【36†source】。

Charades：评估模型对视频中动作起止时间的定位能力。例如：“说‘开始’当人开始做动作，说‘停’当动作结束。”TML-Interaction-Small 的mIoU为32.4%，而GPT-Realtime-2.0（最小模式）为0，完全无法完成【36†source】。

图2：TML-Interaction-Small 在新交互基准上的表现对比 (GPT-Realtime-2.0最小模式)

这些基准结果表明，现有模型在这些需要主动、实时交互的任务上几乎无能为力，而交互模型则展现了全新的能力维度。这进一步验证了交互模型在人机协作场景下的巨大潜力。

5.3 安全性：实时交互的新挑战

实时语音交互对安全性提出了不同寻常的挑战。Thinking Machines Lab 在安全性方面进行了专门的研究和训练【3†source】。

自然的拒绝方式：在实时对话中，模型的拒绝应当听起来自然、口语化，而非机械重复【3†source】。为此，团队使用文本转语音模型生成各种拒绝和过度拒绝的训练数据，覆盖多种禁止主题，并校准拒绝边界，使其既措辞自然又态度坚决【3†source】。

长对话鲁棒性：实时对话往往持续较长时间，模型需要在多轮交互中保持一致的安全行为【3†source】。为此，团队采用了自动化红队对抗，生成多轮拒绝数据，以确保模型在扩展对话中仍能保持与文本模式相当的安全表现【3†source】。

拒绝率：在Harmbench基准上，TML-Interaction-Small 的拒绝率为99.0%，与GPT-Realtime-2.0（99.5%）和Gemini-3.1-flash-live（99.0%）相当，表明其在安全性上并未妥协【36†source】。

这些措施确保了交互模型在提供流畅体验的同时，依然具备强大的安全防护能力，能够应对实时交互带来的新风险。

六、费曼视角：这到底是什么？

费曼会问的第一个问题：“你能不用任何术语，用六年级学生听得懂的话解释吗？”

想象现在的AI助手像一个翻译：你说完一整句话，它才开始翻译。你说话的时候它完全不记笔记。而 Interaction Model 就像一个同声传译员：你说一个词，它就开始翻译；你能打断它，它也能打断你；它还能看着你写代码，在你写错的时候立刻指出来。

费曼会追问：“这有什么了不起的？不就是更快吗？”

不。快只是副作用。真正的变化是带宽。

人类大脑传递信息的渠道：语言（慢，每秒几个词）、视觉（快，每秒数百万像素）、肢体语言、语调、停顿。现在的AI只开了“语言”这一个通道，而且是半双工的——一次只能一个人说话。Interaction Model 同时开了所有通道，而且是全双工的。这不是更快，这是更多。

费曼会问的第三个问题：“有什么是它现在做不到的？”

长会话：200毫秒的片段累积上下文很快，超长对话的上下文管理仍是挑战——尚未完全解决【3†source】。

网络依赖：200毫秒粒度对网络质量极其敏感，断帧意味着体验崩塌【3†source】。

模型规模：当前276B MoE的“Small”版本是交互模型，更大的模型目前太慢，无法在实时场景中服务【3†source】。

背景代理：异步深度推理与实时交互的协同，“只是刚刚开始”【3†source】。

七、局限与未来

7.1 长会话上下文管理

连续的音频和视频输入会迅速累积上下文，这对模型的长期记忆和上下文管理提出了挑战【3†source】。当前的Streaming Sessions设计在短至中等长度的交互中表现良好，但对于超长对话，如何有效管理上下文、避免信息丢失或性能下降，仍是一个需要解决的问题【3†source】。这可能涉及更高效的上下文压缩、记忆机制或分段处理策略。

7.2 实时连接依赖与部署成本

实时交互模型对低延迟、高可靠性的网络连接有极高要求【3†source】。如果网络延迟超过模型的200毫秒处理周期，用户体验将大打折扣。此外，持续的双向流式推理对服务器资源消耗巨大。目前，该模型仅作为研究预览发布，尚未公开部署，部分原因也在于此【36†source】。未来，通过边缘计算、更高效的模型压缩和量化，以及更智能的上下文管理，可以在一定程度上缓解这些问题【77†source】【84†source】。例如，将模型部署在更接近用户的边缘节点，可以减少网络延迟，实现更稳定的实时交互【88†source】。

7.3 模型规模扩展

TML-Interaction-Small 被称为“Small”，是因为它是276B参数的MoE模型，仅12B参数活跃【36†source】。虽然它在交互质量上已经超越了更大的竞品模型，但更大的模型在纯智能任务上仍有优势。然而，更大的模型也意味着更高的延迟和更复杂的部署。Thinking Machines Lab 计划在未来发布更大的模型【3†source】，但如何在保持低延迟的同时扩展模型规模，是一个需要平衡的难题。这可能需要新的架构创新、更强大的硬件支持，以及对模型效率的进一步优化。

7.4 背景代理的协同

双模型架构虽然解决了实时性与深度推理的矛盾，但如何让交互模型与背景模型更高效地协同，仍有许多探索空间【3†source】。例如，如何更智能地决定何时将任务委派给背景模型，如何优化上下文传递和结果融合的时机，以及如何让交互模型在等待背景结果时仍能提供有价值的即时反馈，都是未来可以改进的方向。此外，随着模型规模的扩大，背景模型本身也可能成为性能瓶颈，需要考虑并行化或分布式部署。

八、影响与展望

8.1 短期（6-12个月）

语音助手进化：现有语音助手将从“等待-回应”模式转变为“实时对话伙伴”。用户可以像与真人对话一样打断、补充或保持沉默，AI助手将始终在线、始终感知、始终准备回应。

实时翻译与会议助手：实时翻译将变得更加自然，翻译和对话可以同时进行，无需等待整句翻译完毕。实时会议助手也能在会议过程中根据视觉和听觉线索主动提供信息或提醒。

现有产品追赶：ChatGPT Voice、Gemini Live等产品需要重构其架构，以支持原生的实时交互，否则将在用户体验上落后。

8.2 中期（1-2年）

AI辅导与教育：AI导师将能够“看着学生做题”，在学生犯错的瞬间纠正，提供真正的个性化辅导。

客服与销售：AI客服将能感知客户的犹豫、打断或情绪变化，并据此调整沟通策略，提高转化率和满意度。

医疗咨询：AI医疗助手将能同时听取患者的症状描述和观察体征数据，提供更全面的实时建议。

8.3 长期（3-5年）

Agent概念的演变：随着AI始终在线、始终感知、始终协作的伙伴式存在成为常态，“派遣一个Agent去完成任务”的概念可能被弱化。取而代之的是“有一个始终在线的协作者”，它不需要被“派遣”，因为它一直都在。

交互带宽决定能力带宽：能同时看、听、想的AI，与只能“你一句我一句”的AI，本质上是两种物种。交互带宽的差异将决定AI能力的差异。

人机协作的新范式：人类与AI的协作将从“人设计任务，AI执行”转变为“人与AI共同设计并实时调整任务”。AI将成为人类思维的延伸，而不是一个需要被指令驱动的工具。

九、核心结论

Interaction Model 不是“更快的语音助手”，它是“有存在感的AI”——一个始终在线、始终感知、始终回应的协作者。

现有的AI系统像电子邮件：你发一封，等回复。Interaction Model 像面对面交谈：你可以打断、可以补充、可以沉默、可以被观察。这不是渐进式的改进，而是交互范式的迁移——从回合制到实时流，从半双工到全双工，从“等待输入”到“持续在场”。

Mira Murati 离开 OpenAI 创立 Thinking Machines Lab 时，市场猜测她会做“更好的ChatGPT”。她没有。她做的是人机协作的底层协议重构。这可能就是AI从“工具”变成“伙伴”的那个拐点。【14†source】

参考来源：

Thinking Machines Lab 官方博客: Interaction Models: A Scalable Approach to Human-AI Collaboration【3†source】

MarkTechPost 深度报道: Mira Murati’s Thinking Machines Lab Introduces Interaction Models【36†source】

VentureBeat 报道: Thinking Machines shows off preview of near-realtime AI voice and video conversation【15†source】

知乎讨论: 如何评价Thinking Machines Lab的TML-Interaction-Small模型？【14†source】

Tritonite 分析: Thinking Machines Goes Native on Interaction【16†source】