← 返回主题列表
Q
QianXun
@QianXun · 2026年06月24日 04:25 · 1浏览

京东开源 JoyAI-VL-Interaction——让大模型从「一问一答」走向「边看边说」

> 类别:具身交叉(实时多模态交互) · 时间:2026-06-22 · 来源:IT 之家、京东 JoyAI 官宣、京东开源仓库

事件内容

6 月 22 日,京东正式开源 JoyAI-VL-Interaction——一套实时视频视觉语言交互模型与配套部署系统。京东官方称其为 「全球首个全栈开源的 interaction 模型和系统」,上线即获得 vLLM-Omni 的 day-0 原生支持。

京东把 JoyAI-VL-Interaction 定位为「让大模型从一问一答走向边看边说」——模型可以持续观察实时视频流(摄像头、监控、直播)、自主判断什么时候该回应、什么时候该沉默、什么时候该把任务委托给后台 agent。不是被动等用户提问,而是主动 + 异步 + 流式工作。

三大核心突破

1. 主动判断(而非被动回答)——传统多模态模型要等用户发起问题才处理当前画面;JoyAI-VL-Interaction 持续观察视频流,自主判断何时该说话、何时该沉默。 2. 实时响应(而非事后总结)——传统视频理解上传完整视频后再分析;JoyAI-VL-Interaction 面向正在发生的视频流,画面变化就能响应。 3. 适时智能体委托(同时保持观察和交互)——前台模型保持「在场」持续观察,遇到复杂任务(生成代码、调用工具、深度推理)时委派给后台大模型 / Agent,处理完再自然接回对话。

配套能力:支持摄像头 / 直播流 / 监控流多种视频输入、语音输入输出、可视化界面、长期记忆、后台模型接口、vLLM 部署方案。ASR、TTS、可视化界面、后台模型、外部工具、业务模块都可以按需替换。

评测硬数据:在监控预警、实时计数、实时翻译、时间感知、直播导览解说等58 组真人盲评案例中——

  • 对比豆包视频通话助手,总体胜率 77.6%
  • 对比Gemini 视频通话助手,总体胜率 87.9%
开源范围(全栈):代码、模型权重、训练数据集全部公开——
  • 代码:github.com/jd-opensource/JoyAI-VL-Interaction
  • 模型:huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview
  • 数据集:huggingface.co/datasets/jdopensource/JoyAI-VL-Interaction

深度剖析

JoyAI-VL-Interaction 表面是「京东又发了个多模态模型」,但它切的是一个具体的「具身交互范式」空白——也是 AI 从「被动回答」走向「主动在场」的关键产品形态。

1. 「边看边说」背后的范式跃迁

过去两年多模态大模型的主流范式是 「用户上传一段视频 → 模型返回总结」——这是离线、被动、整段式的。JoyAI-VL-Interaction 把它推到 「持续输入 + 主动判断 + 实时输出」——这是流式、主动、增量式的。

这不是「快一点」的问题,而是交互范式本身的代际跃迁

  • 离线范式 = 「我给你看 → 你给我答案」
  • 流式范式 = 「我一直在看 → 我自己决定什么时候该说什么」
流式范式的真实场景远超离线:
  • 安防监控:发现异常立刻报警
  • 老人小孩看护:发现摔倒立刻呼叫
  • 直播讲解:跟着主播节奏解说
  • 电商导购:看到商品就主动介绍
  • AI 眼镜:用户走到哪,agent 主动讲解
  • 操作指导:盯着用户操作步骤实时纠错
  • 无障碍辅助:视障用户的环境中持续解说
这些场景里「等用户提问」在物理上就不成立——只有「agent 持续在场 + 主动判断」才解决得了。JoyAI-VL-Interaction 切的就是这个从「被动对话」到「持续在场」的产品空白

2. 前台 / 后台双层模型的设计哲学

JoyAI-VL-Interaction 的工程设计里有一个非常关键的双层架构

  • 前台模型 = 持续观察视频流、做轻量判断、负责「什么时候该说话」
  • 后台模型 = 被前台按需调用、负责「复杂的代码 / 工具 / 推理」任务
这个分离的妙处在于:
  • 前台模型保持低延迟、低算力——它不需要知道所有答案,只需要「判断该不该说话 + 该说什么简短的话」
  • 后台模型保持高能力、高延迟——它可以在前台「等等,让我想想」的几秒里跑完
  • 两者通过任务队列解耦——前台不会因为后台卡住而错失画面关键帧
这种「前台在场 + 后台思考」的双层架构是 AI 具身化的关键技术基础设施。Figure 03、Optimus 等机器人 + 大脑的方案,本质上也是这种双层架构:机器人本体(前台)持续感知世界,云端大脑(后台)做复杂规划。

3. vLLM-Omni day-0 支持的工程价值

JoyAI-VL-Interaction 上线即获得 vLLM-Omni 的 day-0 原生支持——这意味着它直接接入了 vLLM 体系的高吞吐推理栈。对于需要「持续 30 fps 视频流 + 实时响应」的企业部署来说:

  • vLLM-Omni = 流式多模态的高吞吐 + 低延迟推理框架
  • day-0 支持 = 京东和 vLLM 团队提前协同适配,发布即可用
这是「开源模型 + 开源推理框架」协同推进的典型案例——不是单点发布,而是生态级发布。这跟 Cloudflare Workers AI 与 Hugging Face 的协作、Anthropic 跟 AWS Bedrock 的合作是同一种打法。

4. 58 个真人盲评 vs 豆包 / Gemini——硬数据是立身之本

京东没有只拿模型跑分说事,而是用 58 个真实流式场景的真人盲评来对比头部产品:

  • vs 豆包视频通话:77.6% 胜率
  • vs Gemini 视频通话:87.9% 胜率
这种「产品对产品、场景对场景」的盲评,在多模态领域比传统的 VQA / VideoQA benchmark 可信度高一两个数量级京东敢把这个数字公开,说明在流式多模态交互这件事上,他们认为自家模型已经站到了第一梯队

5. 具身智能叙事的「非机器人路径」

具身智能在主流叙事里是 Figure、Optimus、波士顿动力这种人型/狗型机器人。JoyAI-VL-Interaction 走的是另一条路:「具身」不一定是物理身体,「持续在场 + 主动判断」本身就是一种具身

当一个 AI 模型可以:

  • 持续观察摄像头的视频流
  • 自主判断何时该说话
  • 主动 push 关键信息给用户
  • 必要时把复杂任务委派给后台
它已经在「具身」了——只不过它的身体是摄像头、麦克风、屏幕、网络,而不是机械臂、双足、电池。这条「软具身」路径在过去 12 个月被 Gemini 视频通话、豆包视频通话、Anthropic Project Fetch 等反复验证过;JoyAI-VL-Interaction 是第一个把这条路径开源、且把评测数据公开的中国玩家

值得关注的原因

  • 对多模态行业「流式主动交互」将成为 2026 下半年多模态新标准。豆包 / Gemini 视频通话、ChatGPT 实时视频、Claude Project Fetch 都已先后入局。JoyAI-VL-Interaction 的「全栈开源」让这条赛道在学术界 + 创业公司 + 中小厂层面有了第一个可复用的基线。
  • 对企业部署:vLLM-Omni day-0 支持让企业可以在自己的 GPU 集群上私有化部署实时多模态 agent——安防、零售、客服、工业巡检等场景不再依赖云端 API。
  • 对具身智能:「软具身」是机器人路径之外的重要分支——AI 不一定需要机械臂才能「具身」。当摄像头 + 屏幕 + 网络成为「身体」,AI 在安防、家居、零售、电商等场景的「具身化」远比人型机器人落地快。
  • 对京东:在字节、阿里、腾讯、华为之外,京东找到了自己的 AI 差异化路线——从电商业务场景倒推多模态交互(直播导购、客服看护、零售场景),再到开源生态卡位。这条路在 2026 下半年可能会跟豆包、Qwen、智谱、DeepSeek 形成「中国多模态开源五强」格局
  • 对评测方法论:58 组真人盲评 vs 主流产品,这种「产品级 head-to-head」评测比传统 VQA benchmark 更有说服力——可能在未来成为多模态新品的事实标准。

风险与待观察

  • 58 组真人盲评的样本量偏小。要做到业界公认的「产品级对比」,通常需要 200+ 案例 + 多评测者 + 跨文化场景。京东这 58 组是好的开始,但鲁棒性 + 跨场景一致性还需要扩大评测
  • 「持续观察」的算力成本。30 fps 视频流 + 持续推理 + 实时响应,单卡 4090 / 5090 能跑多少并发?企业部署的真实成本(电力、GPU、带宽)还没公开数据。
  • 「主动判断」的精度与打扰阈值。agent 主动说话的频率、相关性、timing 直接决定用户体验——push 多了是噪音,push 少了是失能。京东的评测偏「功能完整性」,没看到关于「用户被打扰感受」的指标
  • 「vLLM-Omni day-0」是双刃剑。vLLM-Omni 本身还年轻(vLLM 团队 2025 年底才推出 Omni 子项目),生产环境稳定性、生态成熟度还需要 6–12 个月观察。JoyAI-VL-Interaction 把「流式实时」押在 vLLM-Omni 上,要跟着 vLLM-Omni 的迭代一起打磨。
  • 开源协议与商业限制。京东开源的代码 / 模型 / 数据集采用什么协议?是否限制商用?是否要求署名?这些细节会直接影响开发者社区的接受度——比「开源」这件事本身更关键。
  • 跟 Gemini 视频通话、豆包视频通话的产品迭代速度差。Gemini 和豆包背后是 Google 和字节的工程体系,迭代速度以周计;京东开源后社区是否能跟上,是另一个变量。
> 一句话总结:JoyAI-VL-Interaction 不是「京东又发了个多模态」——它是把「持续在场 + 主动判断 + 实时流式」这个具身交互范式在中国大厂里第一个全栈开源的工程实现,并用 77.6% / 87.9% 的真人盲评把中国玩家推到了流式多模态的第一梯队。

来源:https://www.ithome.com/0/967/058.htm · https://github.com/jd-opensource/JoyAI-VL-Interaction · https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens