京东开源JoyAI-VL-Interaction深度评测:大模型边看边说新体验
设想一个场景:火势刚蔓延出烟雾,监控系统已自动触发警报;独居老人意外摔倒,AI即时通知远方家属;视障用户佩戴智能眼镜,实时感知周边环境并接收语音描述。这些不再只是科幻桥段,随着AI技术的演进,它们正加速落地为现实应用。
近期,京东正式开源JoyAI-VL-Interaction——一个面向实时视频流的视觉语言交互模型。其核心突破在于:这是目前全球首款实现全栈开源的interaction模型与系统,并获vLLM-Omni官方原生支持。这意味着AI不再局限于“你问我答”的被动模式,而是能够“边看边说”。开发者借助这一框架,可快速构建具备持续观察、自主判断与即时响应能力的实景AI助手。从更宏观的视角看,这或将成为AI大规模渗透物理世界、重塑人类生产与生活方式的关键转折点。
不止解析历史,更要实时感知“当下”
当前市场上的多模态模型,多数仍在比拼参数规模与知识储备。但本质上,它们仍沿用“一问一答”模式:用户上传图片或视频后发起提问,模型再给出回答。这种方式在图文问答、事后复盘、内容分析等场景中表现出色,然而一旦需要AI介入真实物理世界,仅凭“聪明”远远不够,关键在于“在场感”。现实世界的每一刻都在急速变化,很多关键瞬间稍纵即逝,错过便难以补救。
京东开源的JoyAI-VL-Interaction,正是为了让AI像人类一样持续“在场”:它边观察、边记忆、边判断,在关键节点主动响应,或选择将任务委派给后台Agent。相比传统模型,它实现了三大核心突破:
1. 主动研判,而非被动应答
传统模型通常等待用户抛出问题后,才开始处理当前画面。而JoyAI-VL-Interaction能持续追踪视频流,自主学习判断——何时该开口表达,何时该保持静默。
举例来说,你设定“裁判出示红牌时提醒我”,模型便会持续值守画面,待事件发生时自动推送预警,完全无需事后追问“刚才发生了什么”。
2. 实时响应,而非事后复盘
传统视频理解方案通常要求先完整上传视频再分析,这在安防预警、实时翻译、直播解说、操作指导等场景中,延迟几秒就会严重削弱体验与价值。JoyAI-VL-Interaction专为实时视频流设计,画面一旦变化,系统即刻做出响应。
3. Agent委派,同步观察与交互
该模型具备独特的后台任务委派能力——遇到需要编写代码、调用工具、执行复杂逻辑推理的任务时,可顺畅交由后台大模型或Agent处理。前台模型继续聚焦实时画面,后台模型处理复杂任务,结果完成后自然接回对话。这相当于构建了一套“前台实时助手+后台智能大脑”的协作系统:前台负责“在场”,后台负责“重活”,有望开启AI与人类协力的全新范式。
开源的是一整套系统,而非单一模型
在实时视频流中,JoyAI-VL-Interaction每秒都会作出判断:是继续观察保持静默,还是检测到关键事件主动回应,或是遇到复杂任务转交后台Agent。这意味着“何时开口”不再依赖外部规则或定时器,而是模型自主习得的能力。
对于实时交互而言,既能说话又能保持沉默同样重要。优秀的AI助手不应持续打扰用户,它应清楚何时出现、何时安静、何时自行解决、何时交给Agent处理。
许多开源模型仅提供基础推理能力,开发者若想真正投入实用,还需自行处理视频接入、语音交互、记忆模块、前后端协同等工程问题。而JoyAI-VL-Interaction开源的是完整技术栈,涵盖模型权重、交互数据集、训练方案以及一套可部署的系统。这能极大缩短开发者从模型研究到真实场景落地的路径。
其输入方式极为多元:支持摄像头、直播流、监控流;同时兼容语音输入输出、可视化界面、长期记忆、后台模型接口及vLLM部署方案。ASR、TTS、可视化界面、后台模型、外部工具与业务模块均可按需替换。开发者可以接入自有语音服务、Agent、API、业务系统或前端界面。
换言之,JoyAI-VL-Interaction并非封闭产品,而是一套开放框架。它既可服务于研究,也能改造为安防监控、老人儿童看护、直播讲解、电商导购、操作指导、AI眼镜、无障碍辅助等各类实时AI助手。
在评测中,JoyAI-VL-Interaction覆盖了监控预警、实时计数、实时翻译、时间感知、直播导览解说等真实流式场景。在58个涉及视觉触发主动响应、对实时性要求极高的真人盲评案例中,相比豆包视频通话助手,其总体胜率达77.6%;对比Gemini视频通话助手,总体胜率高达87.9%。尤其在监控预警场景下,它对两个基线均取得100%胜率。原因不难理解:自主交互能力已内嵌于模型自身,而非依赖外部触发——这正是它对比传统“一问一答”回合制模型的天然优势。
从生成式到交互式,AI步入物理世界
今年以来,京东在模型基建领域取得多项关键突破。3月,开源基础大模型JoyAI-LLM Flash的Instruct版本,打破行业盲目比拼参数大小的困局;4月,开源图像模型JoyAI-Image-Edit,空间理解与编辑能力达到世界一流水平;6月3日,又开源长视频生成模型JoyAI-Echo,推动“所想即所得”的长视频生成时代向前迈进。这些成果标志着京东在多个领域已跻身全球第一梯队。
从“一问一答”到“边看边记边回应”,从离线视频理解到实时流式交互,从屏幕里的AI到物理世界中的AI——此次JoyAI-VL-Interaction的全栈开源,正是京东将AI从数字世界一步步推向物理世界的最新实践。
深耕零售、物流、健康、工业等实体产业二十余年,京东拥有全球领先的物理世界运营网络,覆盖仓储、配送、门店、直播、客服、售后等海量真实场景,每天上演着人、货、场的实时互动。对AI而言,这些并非抽象数据,而是进入物理世界的天然训练场与应用场,也为京东打造“全球最大物理世界运营中心”提供坚实保障。未来,可以期待京东持续加大研发投入,开放技术能力,推动AI从千行百业真正走进千家万户。
值得注意的是,JoyAI-VL-Interaction已获得vLLM-Omni的day-0支持,并原生合入vLLM-Omni主线。大家可在vLLM-Omni上一键拉起服务直接体验,也可在仓库下一键启动。

