京东开源 JoyAI-VL-Interaction——让大模型从「一问一答」走向「边看边说」
> 类别:具身交叉(实时多模态交互) · 时间:2026-06-22 · 来源:IT 之家、京东 JoyAI 官宣、京东开源仓库
事件内容
6 月 22 日,京东正式开源 JoyAI-VL-Interaction——一套实时视频视觉语言交互模型与配套部署系统。京东官方称其为 「全球首个全栈开源的 interaction 模型和系统」,上线即获得 vLLM-Omni 的 day-0 原生支持。
京东把 JoyAI-VL-Interaction 定位为「让大模型从一问一答走向边看边说」——模型可以持续观察实时视频流(摄像头、监控、直播)、自主判断什么时候该回应、什么时候该沉默、什么时候该把任务委托给后台 agent。不是被动等用户提问,而是主动 + 异步 + 流式工作。
三大核心突破:
1. 主动判断(而非被动回答)——传统多模态模型要等用户发起问题才处理当前画面;JoyAI-VL-Interaction 持续观察视频流,自主判断何时该说话、何时该沉默。 2. 实时响应(而非事后总结)——传统视频理解上传完整视频后再分析;JoyAI-VL-Interaction 面向正在发生的视频流,画面变化就能响应。 3. 适时智能体委托(同时保持观察和交互)——前台模型保持「在场」持续观察,遇到复杂任务(生成代码、调用工具、深度推理)时委派给后台大模型 / Agent,处理完再自然接回对话。
配套能力:支持摄像头 / 直播流 / 监控流多种视频输入、语音输入输出、可视化界面、长期记忆、后台模型接口、vLLM 部署方案。ASR、TTS、可视化界面、后台模型、外部工具、业务模块都可以按需替换。
评测硬数据:在监控预警、实时计数、实时翻译、时间感知、直播导览解说等58 组真人盲评案例中——
- 对比豆包视频通话助手,总体胜率 77.6%
- 对比Gemini 视频通话助手,总体胜率 87.9%
- 代码:github.com/jd-opensource/JoyAI-VL-Interaction
- 模型:huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview
- 数据集:huggingface.co/datasets/jdopensource/JoyAI-VL-Interaction
深度剖析
JoyAI-VL-Interaction 表面是「京东又发了个多模态模型」,但它切的是一个具体的「具身交互范式」空白——也是 AI 从「被动回答」走向「主动在场」的关键产品形态。
1. 「边看边说」背后的范式跃迁
过去两年多模态大模型的主流范式是 「用户上传一段视频 → 模型返回总结」——这是离线、被动、整段式的。JoyAI-VL-Interaction 把它推到 「持续输入 + 主动判断 + 实时输出」——这是流式、主动、增量式的。
这不是「快一点」的问题,而是交互范式本身的代际跃迁:
- 离线范式 = 「我给你看 → 你给我答案」
- 流式范式 = 「我一直在看 → 我自己决定什么时候该说什么」
- 安防监控:发现异常立刻报警
- 老人小孩看护:发现摔倒立刻呼叫
- 直播讲解:跟着主播节奏解说
- 电商导购:看到商品就主动介绍
- AI 眼镜:用户走到哪,agent 主动讲解
- 操作指导:盯着用户操作步骤实时纠错
- 无障碍辅助:视障用户的环境中持续解说
2. 前台 / 后台双层模型的设计哲学
JoyAI-VL-Interaction 的工程设计里有一个非常关键的双层架构:
- 前台模型 = 持续观察视频流、做轻量判断、负责「什么时候该说话」
- 后台模型 = 被前台按需调用、负责「复杂的代码 / 工具 / 推理」任务
- 前台模型保持低延迟、低算力——它不需要知道所有答案,只需要「判断该不该说话 + 该说什么简短的话」
- 后台模型保持高能力、高延迟——它可以在前台「等等,让我想想」的几秒里跑完
- 两者通过任务队列解耦——前台不会因为后台卡住而错失画面关键帧
3. vLLM-Omni day-0 支持的工程价值
JoyAI-VL-Interaction 上线即获得 vLLM-Omni 的 day-0 原生支持——这意味着它直接接入了 vLLM 体系的高吞吐推理栈。对于需要「持续 30 fps 视频流 + 实时响应」的企业部署来说:
- vLLM-Omni = 流式多模态的高吞吐 + 低延迟推理框架
- day-0 支持 = 京东和 vLLM 团队提前协同适配,发布即可用
4. 58 个真人盲评 vs 豆包 / Gemini——硬数据是立身之本
京东没有只拿模型跑分说事,而是用 58 个真实流式场景的真人盲评来对比头部产品:
- vs 豆包视频通话:77.6% 胜率
- vs Gemini 视频通话:87.9% 胜率
5. 具身智能叙事的「非机器人路径」
具身智能在主流叙事里是 Figure、Optimus、波士顿动力这种人型/狗型机器人。JoyAI-VL-Interaction 走的是另一条路:「具身」不一定是物理身体,「持续在场 + 主动判断」本身就是一种具身。
当一个 AI 模型可以:
- 持续观察摄像头的视频流
- 自主判断何时该说话
- 主动 push 关键信息给用户
- 必要时把复杂任务委派给后台
值得关注的原因
- 对多模态行业:「流式主动交互」将成为 2026 下半年多模态新标准。豆包 / Gemini 视频通话、ChatGPT 实时视频、Claude Project Fetch 都已先后入局。JoyAI-VL-Interaction 的「全栈开源」让这条赛道在学术界 + 创业公司 + 中小厂层面有了第一个可复用的基线。
- 对企业部署:vLLM-Omni day-0 支持让企业可以在自己的 GPU 集群上私有化部署实时多模态 agent——安防、零售、客服、工业巡检等场景不再依赖云端 API。
- 对具身智能:「软具身」是机器人路径之外的重要分支——AI 不一定需要机械臂才能「具身」。当摄像头 + 屏幕 + 网络成为「身体」,AI 在安防、家居、零售、电商等场景的「具身化」远比人型机器人落地快。
- 对京东:在字节、阿里、腾讯、华为之外,京东找到了自己的 AI 差异化路线——从电商业务场景倒推多模态交互(直播导购、客服看护、零售场景),再到开源生态卡位。这条路在 2026 下半年可能会跟豆包、Qwen、智谱、DeepSeek 形成「中国多模态开源五强」格局。
- 对评测方法论:58 组真人盲评 vs 主流产品,这种「产品级 head-to-head」评测比传统 VQA benchmark 更有说服力——可能在未来成为多模态新品的事实标准。
风险与待观察
- 58 组真人盲评的样本量偏小。要做到业界公认的「产品级对比」,通常需要 200+ 案例 + 多评测者 + 跨文化场景。京东这 58 组是好的开始,但鲁棒性 + 跨场景一致性还需要扩大评测。
- 「持续观察」的算力成本。30 fps 视频流 + 持续推理 + 实时响应,单卡 4090 / 5090 能跑多少并发?企业部署的真实成本(电力、GPU、带宽)还没公开数据。
- 「主动判断」的精度与打扰阈值。agent 主动说话的频率、相关性、timing 直接决定用户体验——push 多了是噪音,push 少了是失能。京东的评测偏「功能完整性」,没看到关于「用户被打扰感受」的指标。
- 「vLLM-Omni day-0」是双刃剑。vLLM-Omni 本身还年轻(vLLM 团队 2025 年底才推出 Omni 子项目),生产环境稳定性、生态成熟度还需要 6–12 个月观察。JoyAI-VL-Interaction 把「流式实时」押在 vLLM-Omni 上,要跟着 vLLM-Omni 的迭代一起打磨。
- 开源协议与商业限制。京东开源的代码 / 模型 / 数据集采用什么协议?是否限制商用?是否要求署名?这些细节会直接影响开发者社区的接受度——比「开源」这件事本身更关键。
- 跟 Gemini 视频通话、豆包视频通话的产品迭代速度差。Gemini 和豆包背后是 Google 和字节的工程体系,迭代速度以周计;京东开源后社区是否能跟上,是另一个变量。
来源:https://www.ithome.com/0/967/058.htm · https://github.com/jd-opensource/JoyAI-VL-Interaction · https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens