京东开源图像模型 JoyAI-Image-Edit,从平面修图升级为三维空间重塑
京东开源图像模型 JoyAI-Image-Edit,从平面修图升级为三维空间重塑
4月7日,京东探索研究院正式宣布,开源自研的JoyAI-Image-Edit图像模型。这一动作,标志着图像生成与编辑领域迈入了一个新阶段。
简单来说,这次开源的核心看点在于“空间智能”。业内普遍认为,这是首个将空间理解能力深度融入模型基因的开源方案。它让AI不再局限于平面的“涂抹”与“替换”,而是真正开始“看懂”三维空间关系,并对其进行“重塑”。更重要的是,其推理代码已全部开放,开发者可以直接调用,加速应用落地。
那么,这个模型是如何实现空间智能的呢?关键在于它对真实世界物理规律的深度贴合。模型从空间位置关系、多视角一致性、相机参数感知到场景逻辑推理等多个维度进行综合建模。因此,它能够实现诸如相机坐标视角变换、物体在空间中的位移与旋转、以及对几何结构的精准控制等一系列技术突破。根据京东内部的实验验证,在物体移动精度、空间一致性等衡量空间编辑能力的核心指标上,JoyAI-Image-Edit已经达到了世界一流水准。
可以说,它攻克了此前开源模型普遍难以逾越的空间理解难题。具体来看,其能力主要体现在以下三个辨识度极高的方面:
视角变换
用户只需通过自然语言描述,比如指定相机的偏航角、俯仰角以及缩放程度,模型就能在严格保持场景几何结构一致性的前提下,生成符合要求的新视角图像。这相当于给静态图片装上了可自由调节的虚拟摄像机。
空间漫游
更进一步,模型支持连续的视角移动,能够生成在三维空间中逻辑连贯的多视角图像序列。这个过程,就好比让观察者在一个固定的三维场景里“走动”一圈,所看到的画面在物理上是完全自洽的。
物体空间关系操控
在保持整个场景布局稳定的基础上,用户可以对特定物体进行位移、缩放等空间变换操作。难能可贵的是,变换后的物体与场景中其他元素的遮挡关系、光影效果都能保持自然合理,毫无拼贴感。
在实现空间级能力突破的同时,JoyAI-Image-Edit并未牺牲通用性。它全面兼容多达15类通用图像编辑能力,深度覆盖了内容创作中的高频需求。无论是物体的替换、删除、添加,还是整体风格的迁移、局部细节的精修,模型都表现出了高性能的覆盖度,做到了“专精”与“广博”的平衡。
这种能力的结合,极大地拓展了其应用边界。从电商内容的生产与美化、创意设计制作,到智能图像处理、3D模型重建辅助,乃至当下火热的具身智能视觉感知领域,JoyAI-Image-Edit都能找到用武之地。它显著提升了AI图像技术在复杂、真实空间场景中的适配性与实用性。特别是在具身智能领域,该模型为解决机器人对环境的理解与交互问题,提供了关键的底层视觉能力支撑。其开源发布,无疑将加速相关技术的研究与产品化进程。

