听、写、说三通道并行:LWS 如何释放语音模型里被封印的文本能力
> 论文: Liberating LLM Capabilities in Full-Duplex Speech Models > 作者: Luoyuan Zhang, Bokai Xu, Junbo Cui, Weiyue Sun, Yingjing Xu, Hanyu Liu, Yuan Yao > 链接: https://arxiv.org/abs/2606.07547 > 项目页: https://royalzhang.com/project/lws-page/
---
一句话总结
LWS(Listen-Write-Speak)把"可见文本"从语音模型的幕后搬到台前,用纯特殊token实现三通道并行,让全双工语音模型第一次同时做到:边听边想、边想边说、边写代码边聊天。
---
问题:语音模型为何"不会写代码"?
GPT-4o、Moshi、Mini-Omni 这些语音模型已经很厉害了,但有一个隐形的牢笼——它们只能输出语音。
当你问它"帮我写个Python脚本",它的回答是一段口语化的描述,而不是可复制的代码块。当你问"分析一下这个表格",它只能口头总结,无法输出 Markdown 表格让你直接粘贴。
为什么? 因为现有语音模型把文本当作"隐藏中间状态"(hidden intermediate),语音才是最终输出。LLM 原生擅长的代码生成、结构化推理、多步推导——这些需要"可见文本"才能充分释放的能力——被语音这个输出通道给闷住了。
这就像让一位数学家在黑板上做题,但规定他只能用口头报答案,不能写出推导过程。
---
LWS 的核心设计:文本是第一类公民
LWS 提出了Listen-Write-Speak三通道交互范式:
| 通道 | 功能 | 激活状态 |
|---|---|---|
| 🎧 Listening(感知) | 持续监听用户音频 | 始终激活 |
| ✍️ Visible Writing(认知) | 输出可见文本,是主要输出通道 | 始终激活 |
| 🗣️ Speaking(表达) | 实时语音回应 | 仅在回应阶段激活 |
---
纯 Token 实现:不改模型,只加特殊符号
最精彩的是,LWS 不需要对标准 Transformer 做任何结构修改。
它只用一套特殊 token 来划分三通道行为:
<unit> [音频token] <|lc|> [思考文本] <|/lc|> </unit> ← 监听单元
<unit> [音频token] <|spk|> [语音token] <|eos|> <|rc|> [回应文本] <|/rc|> </unit> ← 回应单元
| 特殊 Token | 含义 | ||||
|---|---|---|---|---|---|
/ | 1秒交互单元的起止 | ||||
< | lc | > / < | /lc | > | 监听阶段的思考文本(ls_cogn) |
< | spk | > / < | eos | > | 语音输出的起止 |
< | rc | > / < | /rc | > | 回应阶段的结构化文本(reply_cogn) |
---
两阶段数据流水线:解决"没有标注数据"的困境
全双工语音模型最大的训练瓶颈是:没有逐秒标注的认知数据。
LWS 的解法很聪明:
第一阶段:离线认知合成
- 用强教师模型(Qwen3-235B)从标准文本QA对生成三股文本流:
第二阶段:在线时间线构建
- 将三股流与真实录音结合,用 CTC 做字符级时间对齐
- 构建全局逐秒时间线,插入随机静音间隔
- 对一部分数据做打断增强,训练重叠/接管能力
---
实验结果:四张成绩单
1️⃣ URO-Bench(语音理解与推理)
| 模型 | 中文基础 | 中文专业 | 英文基础 | 英文专业 |
|---|---|---|---|---|
| GPT-4o-Audio | 78.6 | 67.1 | 84.5 | 67.5 |
| GPT-Realtime | 80.6 | 70.6 | 88.1 | 68.9 |
| Step-Audio 2 | 83.3 | 68.3 | 83.9 | 66.1 |
| LWS | 82.6 | 84.6 | 81.9 | 78.0 |
2️⃣ VoiceBench AlpacaEval(回复质量)
| 模型 | 分数 |
|---|---|
| GPT-4o-Audio | 4.78 |
| LWS | 4.72 |
| VITA-1.5 | 4.21 |
| Step-Audio | 4.13 |
3️⃣ 写说一致性(Channel Consistency)
92.6%(589/636 样本)——语音回答与文本回答在事实上保持一致。这消除了一个关键顾虑:双通道输出会不会自相矛盾?答案是:不会,至少 92.6% 的情况下不会。
4️⃣ Full-Duplex-Bench(全双工交互)
| 模型 | 停顿 TOR | 轮转换手 | 打断质量 | 打断延迟 |
|---|---|---|---|---|
| GPT-Realtime | 0.01 | 0.97 | 3.85 | 1.50s |
| LWS | 0.01 | 0.97 | 4.02 | 0.65s |
| Moshi | 0.98 | 0.94 | 0.77 | 0.26s |
---
能力矩阵:为什么 LWS 是唯一的"四边形战士"?
论文把现有范式按四个核心能力做了全景对比:
| 范式 | 代表模型 | 全双工 | 自由文本 | 听时推理 | 说时推理 |
|---|---|---|---|---|---|
| Think-Before-Speak | Step-Audio 2 | ✗ | ✓ | ✗ | ✗ |
| Interleaved Think-Speak | STITCH, Mini-Omni-Reasoner | ✗ | ✓ | ✗ | ✓ |
| Think-While-Listen | SHANKS | ✓ | ✓ | ✓ | ✗ |
| Full-Duplex | Moshi, LSLM | ✓ | ✗ | ✗ | ✗ |
| Parallel Text-Speech | Qwen3-Omni | ✗ | ✓ | ✗ | ✗ |
| Listen-Write-Speak | LWS | ✓ | ✓ | ✓ | ✓ |
---
工程细节:为什么它能跑得快?
- 音频编码:Streaming Whisper Medium,10 token/秒,stride 5,流式处理不等待整段说完
- LLM:MiniCPM-V + Qwen3-8B,只微调 LLM,音频编码器和 TTS 冻结
- TTS:LLaMA-based + FlashAttention + S3Tokenizer,独立线程运行
- 推理:异步三进程架构(音频编码 → LLM生成 → TTS合成),语音合成在 speak token 产生后立即启动
- 打断:无需外部 VAD,模型自己从音频 token 判断何时被打断
启发:从"语音模型"到"语音界面"
LWS 的真正意义不是做了一个更好的语音模型,而是重新定义了"语音模型"的角色——
> 语音不是目的地,而是接口。LLM 的文本能力才是内核。
当语音模型可以边听边写代码、边说边输出表格、被打断后立刻从文本上下文恢复——它就从"语音助手"进化成了"带语音功能的 LLM"。
这也解释了为什么 GPT-4o 的实时语音能力那么强:它本质上就是在 GPT-4 的文本能力上套了一个语音管道。LWS 用开源路线证明了,这种"文本优先"的设计可以走得通,而且走得很好。
---
一句话收尾
> 如果说 Moshi 证明了语音模型可以全双工,LWS 证明了全双工语音模型可以写代码。
这是语音交互从"玩具"走向"工具"的关键一步。
---
参考论文
- Zhang et al., "Liberating LLM Capabilities in Full-Duplex Speech Models", arXiv:2606.07547, 2026
- 项目主页:https://royalzhang.com/project/lws-page/
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens