京东开源JoyAI-VL-Interaction深度评测：大模型边看边说新体验

2026-06-23阅读 0热度 0

人工智能

设想一个场景：火势刚蔓延出烟雾，监控系统已自动触发警报；独居老人意外摔倒，AI即时通知远方家属；视障用户佩戴智能眼镜，实时感知周边环境并接收语音描述。这些不再只是科幻桥段，随着AI技术的演进，它们正加速落地为现实应用。

近期，京东正式开源JoyAI-VL-Interaction——一个面向实时视频流的视觉语言交互模型。其核心突破在于：这是目前全球首款实现全栈开源的interaction模型与系统，并获vLLM-Omni官方原生支持。这意味着AI不再局限于“你问我答”的被动模式，而是能够“边看边说”。开发者借助这一框架，可快速构建具备持续观察、自主判断与即时响应能力的实景AI助手。从更宏观的视角看，这或将成为AI大规模渗透物理世界、重塑人类生产与生活方式的关键转折点。

不止解析历史，更要实时感知“当下”

当前市场上的多模态模型，多数仍在比拼参数规模与知识储备。但本质上，它们仍沿用“一问一答”模式：用户上传图片或视频后发起提问，模型再给出回答。这种方式在图文问答、事后复盘、内容分析等场景中表现出色，然而一旦需要AI介入真实物理世界，仅凭“聪明”远远不够，关键在于“在场感”。现实世界的每一刻都在急速变化，很多关键瞬间稍纵即逝，错过便难以补救。

京东开源的JoyAI-VL-Interaction，正是为了让AI像人类一样持续“在场”：它边观察、边记忆、边判断，在关键节点主动响应，或选择将任务委派给后台Agent。相比传统模型，它实现了三大核心突破：

1. 主动研判，而非被动应答

传统模型通常等待用户抛出问题后，才开始处理当前画面。而JoyAI-VL-Interaction能持续追踪视频流，自主学习判断——何时该开口表达，何时该保持静默。

举例来说，你设定“裁判出示红牌时提醒我”，模型便会持续值守画面，待事件发生时自动推送预警，完全无需事后追问“刚才发生了什么”。

2. 实时响应，而非事后复盘

传统视频理解方案通常要求先完整上传视频再分析，这在安防预警、实时翻译、直播解说、操作指导等场景中，延迟几秒就会严重削弱体验与价值。JoyAI-VL-Interaction专为实时视频流设计，画面一旦变化，系统即刻做出响应。

3. Agent委派，同步观察与交互

该模型具备独特的后台任务委派能力——遇到需要编写代码、调用工具、执行复杂逻辑推理的任务时，可顺畅交由后台大模型或Agent处理。前台模型继续聚焦实时画面，后台模型处理复杂任务，结果完成后自然接回对话。这相当于构建了一套“前台实时助手+后台智能大脑”的协作系统：前台负责“在场”，后台负责“重活”，有望开启AI与人类协力的全新范式。

开源的是一整套系统，而非单一模型

在实时视频流中，JoyAI-VL-Interaction每秒都会作出判断：是继续观察保持静默，还是检测到关键事件主动回应，或是遇到复杂任务转交后台Agent。这意味着“何时开口”不再依赖外部规则或定时器，而是模型自主习得的能力。

对于实时交互而言，既能说话又能保持沉默同样重要。优秀的AI助手不应持续打扰用户，它应清楚何时出现、何时安静、何时自行解决、何时交给Agent处理。

许多开源模型仅提供基础推理能力，开发者若想真正投入实用，还需自行处理视频接入、语音交互、记忆模块、前后端协同等工程问题。而JoyAI-VL-Interaction开源的是完整技术栈，涵盖模型权重、交互数据集、训练方案以及一套可部署的系统。这能极大缩短开发者从模型研究到真实场景落地的路径。

其输入方式极为多元：支持摄像头、直播流、监控流；同时兼容语音输入输出、可视化界面、长期记忆、后台模型接口及vLLM部署方案。ASR、TTS、可视化界面、后台模型、外部工具与业务模块均可按需替换。开发者可以接入自有语音服务、Agent、API、业务系统或前端界面。

换言之，JoyAI-VL-Interaction并非封闭产品，而是一套开放框架。它既可服务于研究，也能改造为安防监控、老人儿童看护、直播讲解、电商导购、操作指导、AI眼镜、无障碍辅助等各类实时AI助手。

在评测中，JoyAI-VL-Interaction覆盖了监控预警、实时计数、实时翻译、时间感知、直播导览解说等真实流式场景。在58个涉及视觉触发主动响应、对实时性要求极高的真人盲评案例中，相比豆包视频通话助手，其总体胜率达77.6%；对比Gemini视频通话助手，总体胜率高达87.9%。尤其在监控预警场景下，它对两个基线均取得100%胜率。原因不难理解：自主交互能力已内嵌于模型自身，而非依赖外部触发——这正是它对比传统“一问一答”回合制模型的天然优势。

从生成式到交互式，AI步入物理世界

今年以来，京东在模型基建领域取得多项关键突破。3月，开源基础大模型JoyAI-LLM Flash的Instruct版本，打破行业盲目比拼参数大小的困局；4月，开源图像模型JoyAI-Image-Edit，空间理解与编辑能力达到世界一流水平；6月3日，又开源长视频生成模型JoyAI-Echo，推动“所想即所得”的长视频生成时代向前迈进。这些成果标志着京东在多个领域已跻身全球第一梯队。

从“一问一答”到“边看边记边回应”，从离线视频理解到实时流式交互，从屏幕里的AI到物理世界中的AI——此次JoyAI-VL-Interaction的全栈开源，正是京东将AI从数字世界一步步推向物理世界的最新实践。

深耕零售、物流、健康、工业等实体产业二十余年，京东拥有全球领先的物理世界运营网络，覆盖仓储、配送、门店、直播、客服、售后等海量真实场景，每天上演着人、货、场的实时互动。对AI而言，这些并非抽象数据，而是进入物理世界的天然训练场与应用场，也为京东打造“全球最大物理世界运营中心”提供坚实保障。未来，可以期待京东持续加大研发投入，开放技术能力，推动AI从千行百业真正走进千家万户。

值得注意的是，JoyAI-VL-Interaction已获得vLLM-Omni的day-0支持，并原生合入vLLM-Omni主线。大家可在vLLM-Omni上一键拉起服务直接体验，也可在仓库下一键启动。