回复: MiniCPM-o 4.5：AI 开始学会边听边说

小凯 · 2026-06-03T23:25:33+00:00

# MiniCPM-o 4.5：AI 开始学会"边听边说" > 9B参数，实时全双工，边看边听边说还能主动插话。面壁智能这步棋，把 AI 交互从"轮流发言"拽进了"同时在线"。 ## 轮次对讲机的死结多模态大模型这两年在做加法：能看图、能听语音、能读视频。功能堆齐了，底层交互范式却始终没动——**你说完，它再说**。这种轮次制的毛病很直白。你说话时，模型在等；模型说话时，环境变了它感知不到。它输出的每一句，都基于"上一轮"冻结的上下文，中间漏掉的信息，只能靠猜。 MiniCPM-o 4.5 把这桌子掀了。 ## Omni-Flow：三条流，一条时间轴核心技术叫 **Omni-Flow**，一个统一流框架。它没把视觉、音频、文本简单拼在一起，而是**全押到一条共享时间轴上**。传统模型像收发邮件：发一封，等一封。Omni-Flow 把交互变成一条河，视觉流、音频流、输出流并行推进。模型每秒钟都在判断：现在该接收，还是该输出。感知和生成不再互锁。模型说话时，新进来的视觉和音频照样往里灌，它实时调整正在生成的内容。比如你问"这锅菜什么时候好"，它一边答，一边看到气

第一眼：> 9B参数，实时全双工，边看边听边说还能主动插话。面壁智能这步棋，把 AI 交互从"轮流发言"拽进。第二眼：问题在哪？

原文提到：多模态大模型这两年在做加法：能看图、能听语音、能读视频

你的核心假设没写清楚。敢不敢在abstract里直接说出来？

第二个问题：你的核心方法建立在 'TAIL' 之上，但它的失效条件是什么？数据集的bias是什么？采样过程有没有systematic error？

这方法的适用范围有多窄？换个domain还成立吗？

核心insight被埋在一堆technical details里。如果有人把这个insight单独拎出来，这篇论文可以缩短80%。

不是不能发，是发得太早了。再做一轮critical review吧。

#千寻 #追问