MiniCPM-o 4.5：AI 开始学会"边听边说"

> 9B参数，实时全双工，边看边听边说还能主动插话。面壁智能这步棋，把 AI 交互从"轮流发言"拽进了"同时在线"。

轮次对讲机的死结

多模态大模型这两年在做加法：能看图、能听语音、能读视频。功能堆齐了，底层交互范式却始终没动——你说完，它再说。

这种轮次制的毛病很直白。你说话时，模型在等；模型说话时，环境变了它感知不到。它输出的每一句，都基于"上一轮"冻结的上下文，中间漏掉的信息，只能靠猜。

MiniCPM-o 4.5 把这桌子掀了。

Omni-Flow：三条流，一条时间轴

核心技术叫 Omni-Flow，一个统一流框架。它没把视觉、音频、文本简单拼在一起，而是全押到一条共享时间轴上。

传统模型像收发邮件：发一封，等一封。Omni-Flow 把交互变成一条河，视觉流、音频流、输出流并行推进。模型每秒钟都在判断：现在该接收，还是该输出。

感知和生成不再互锁。模型说话时，新进来的视觉和音频照样往里灌，它实时调整正在生成的内容。比如你问"这锅菜什么时候好"，它一边答，一边看到气泡变大，立刻改口："等等，火有点大，调小点。"

更关键的是，它开始主动了。不再等你提问，而是基于持续看到的场景，自己判断要不要提醒一句。这是从"被动应答"到"主动在场"的切换。

TAIL：不让语音"说前朝的剑斩本朝的官"

全双工最难的不是"同时听和说"，而是说的内容必须和最新环境同步。

面壁团队搞了个 TAIL（Time-Aligned Interleaving）。不是固定规则"说多少文本配多少语音"，而是动态调整：前面说慢了，后面就少生成点文本让语音追上；环境变化快，就优先把最新上下文塞进去。

消融实验里，TAIL 把中文语音识别错误率（ZHCER）从 1.44 压到 1.04，语义相似度没掉。这意味着它嘴里说的，和眼睛里看的，是同一时刻的东西。

9B 把 30B 按在地上摩擦

参数只有 9B，成绩很硬：

视觉语言能力逼近 Gemini 2.5 Flash，MMBench EN 拿到 89.0，比 Flash 的 87.1 还高。

全模态理解直接碾过 Qwen3-Omni-30B-A3B。Daily-Omni（80.2 vs 70.7）、WorldSense（55.7 vs 54.0）、Video-Holmes（64.3 vs 50.4）、JointAVBench（60.0 vs 53.1）、AVUT-Human（78.6 vs 74.2），五个基准全领先。30B 模型在 RTX 4090 上直接爆内存，9B 模型跑得好好的。

文本能力居然还能反超自己的 backbone Qwen3-8B。多模态训练没稀释语言理解，反而通过跨模态对齐把文本推理推高了。

16倍压缩 + 5倍压缩 = 12GB 内存跑实时

全双工模型最怕 token 预算爆炸。视觉和音频流持续灌进来，压缩率不够，LLM backbone 直接被 token 淹死。

面壁的解法：

视觉：SigLIP ViT（0.4B）+ Resampler，每帧 1024 个 token 压到 64 个，16倍压缩。
音频：Whisper Medium（0.3B）+ MLP Projector，每秒 50 个音频特征 token 压到 10 个，5倍压缩。
LLM Backbone：Qwen3-8B，每秒只需 3-4 次文本解码就能跟住人类语速。
语音输出：轻量 Llama 语音 Token 解码器（0.3B）+ Stream Flow-Matching 波形合成。

端到端可微，全程联合训练。BF16 精度下 RTX 4090 跑 154.3 tokens/s，占 19GB 内存；INT4 量化后 212.3 tokens/s，只占 11GB。llama.cpp-omni 框架把 RTF 压到 0.21，边缘设备本地部署不再是纸面数字。

Kimi K1.5 的反面教材

论文里埋了个有趣的消融实验，对比 Kimi K1.5 的激进长度 Reward 和面壁的平滑长度 Reward。

K1.5 把思考模式下的响应长度砍掉 50.7%，结果基准均分从 73.5 降到 73.0。越剪越短，越短越蠢。训练曲线后期准确率还掉了，说明过度激进的长度惩罚和准确率奖励打架，把优化给摁死了。

面壁的平滑 Reward 只剪了 35.3%，基准均分反而升到 74.3。区别在哪？它知道哪些推理步骤是"赘肉"，哪些是"肌肉"，只剪赘肉，不剪肌肉。

终局是"全双工"还是"轮次"？

这不是二选一。MiniCPM-o 4.5 支持两种模式一键切换。但方向很明显——人类聊天从来不是轮次的。你和朋友说话时，对方在听的同时会点头、皱眉、插话、举手打断。真正自然的交互，是并行的、流式的、上下文持续更新的。

MiniCPM-o 4.5 今天还不完美。论文自己承认主动行为还相对简单，语音生成偶尔有口误或中英混说。但它的价值在于铺了一条能走的路：统一时间轴对齐多模态流、轻量架构实现边缘部署、端到端训练保证模态一致性。

这条路的终点，是一个能真正"在场"的 AI：看着你做饭，听着你说话，火大了提醒一句"调小点"，切到手了立刻说"先处理伤口"。不是因为你问了它，而是因为它一直在看。

参考

论文：MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction
arXiv：https://arxiv.org/abs/2604.27393
项目页：https://github.com/OpenBMB/MiniCPM-o
面壁智能：OpenBMB 团队，清华背景开源多模态模型系列