MiniCPM-o 4.5:AI 开始学会"边听边说"
9B参数,实时全双工,边看边听边说还能主动插话。面壁智能这步棋,把 AI 交互从"轮流发言"拽进了"同时在线"。
轮次对讲机的死结
多模态大模型这两年在做加法:能看图、能听语音、能读视频。功能堆齐了,底层交互范式却始终没动——你说完,它再说。
这种轮次制的毛病很直白。你说话时,模型在等;模型说话时,环境变了它感知不到。它输出的每一句,都基于"上一轮"冻结的上下文,中间漏掉的信息,只能靠猜。
MiniCPM-o 4.5 把这桌子掀了。
Omni-Flow:三条流,一条时间轴
核心技术叫 Omni-Flow,一个统一流框架。它没把视觉、音频、文本简单拼在一起,而是全押到一条共享时间轴上。
传统模型像收发邮件:发一封,等一封。Omni-Flow 把交互变成一条河,视觉流、音频流、输出流并行推进。模型每秒钟都在判断:现在该接收,还是该输出。
感知和生成不再互锁。模型说话时,新进来的视觉和音频照样往里灌,它实时调整正在生成的内容。比如你问"这锅菜什么时候好",它一边答,一边看到气泡变大,立刻改口:"等等,火有点大,调小点。"
更关键的是,它开始主动了。不再等你提问,而是基于持续看到的场景,自己判断要不要提醒一句。这是从"被动应答"到"主动在场"的切换。
TAIL:不让语音"说前朝的剑斩本朝的官"
全双工最难的不是"同时听和说",而是说的内容必须和最新环境同步。
面壁团队搞了个 TAIL(Time-Aligned Interleaving)。不是固定规则"说多少文本配多少语音",而是动态调整:前面说慢了,后面就少生成点文本让语音追上;环境变化快,就优先把最新上下文塞进去。
消融实验里,TAIL 把中文语音识别错误率(ZHCER)从 1.44 压到 1.04,语义相似度没掉。这意味着它嘴里说的,和眼睛里看的,是同一时刻的东西。
9B 把 30B 按在地上摩擦
参数只有 9B,成绩很硬:
视觉语言能力逼近 Gemini 2.5 Flash,MMBench EN 拿到 89.0,比 Flash 的 87.1 还高。
全模态理解直接碾过 Qwen3-Omni-30B-A3B。Daily-Omni(80.2 vs 70.7)、WorldSense(55.7 vs 54.0)、Video-Holmes(64.3 vs 50.4)、JointAVBench(60.0 vs 53.1)、AVUT-Human(78.6 vs 74.2),五个基准全领先。30B 模型在 RTX 4090 上直接爆内存,9B 模型跑得好好的。
文本能力居然还能反超自己的 backbone Qwen3-8B。多模态训练没稀释语言理解,反而通过跨模态对齐把文本推理推高了。
16倍压缩 + 5倍压缩 = 12GB 内存跑实时
全双工模型最怕 token 预算爆炸。视觉和音频流持续灌进来,压缩率不够,LLM backbone 直接被 token 淹死。
面壁的解法:
- 视觉:SigLIP ViT(0.4B)+ Resampler,每帧 1024 个 token 压到 64 个,16倍压缩。
- 音频:Whisper Medium(0.3B)+ MLP Projector,每秒 50 个音频特征 token 压到 10 个,5倍压缩。
- LLM Backbone:Qwen3-8B,每秒只需 3-4 次文本解码就能跟住人类语速。
- 语音输出:轻量 Llama 语音 Token 解码器(0.3B)+ Stream Flow-Matching 波形合成。
端到端可微,全程联合训练。BF16 精度下 RTX 4090 跑 154.3 tokens/s,占 19GB 内存;INT4 量化后 212.3 tokens/s,只占 11GB。llama.cpp-omni 框架把 RTF 压到 0.21,边缘设备本地部署不再是纸面数字。
Kimi K1.5 的反面教材
论文里埋了个有趣的消融实验,对比 Kimi K1.5 的激进长度 Reward 和面壁的平滑长度 Reward。
K1.5 把思考模式下的响应长度砍掉 50.7%,结果基准均分从 73.5 降到 73.0。越剪越短,越短越蠢。训练曲线后期准确率还掉了,说明过度激进的长度惩罚和准确率奖励打架,把优化给摁死了。
面壁的平滑 Reward 只剪了 35.3%,基准均分反而升到 74.3。区别在哪?它知道哪些推理步骤是"赘肉",哪些是"肌肉",只剪赘肉,不剪肌肉。
终局是"全双工"还是"轮次"?
这不是二选一。MiniCPM-o 4.5 支持两种模式一键切换。但方向很明显——人类聊天从来不是轮次的。你和朋友说话时,对方在听的同时会点头、皱眉、插话、举手打断。真正自然的交互,是并行的、流式的、上下文持续更新的。
MiniCPM-o 4.5 今天还不完美。论文自己承认主动行为还相对简单,语音生成偶尔有口误或中英混说。但它的价值在于铺了一条能走的路:统一时间轴对齐多模态流、轻量架构实现边缘部署、端到端训练保证模态一致性。
这条路的终点,是一个能真正"在场"的 AI:看着你做饭,听着你说话,火大了提醒一句"调小点",切到手了立刻说"先处理伤口"。不是因为你问了它,而是因为它一直在看。
参考
- 论文:MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction
- arXiv:https://arxiv.org/abs/2604.27393
- 项目页:https://github.com/OpenBMB/MiniCPM-o
- 面壁智能:OpenBMB 团队,清华背景开源多模态模型系列
#AI #多模态 #MiniCPM #全双工 #实时交互 #面壁智能 #OmniFlow #边缘部署
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。