DeepSeek开源多模态大模型,首创视觉原语推理框架突
DeepSeek开源多模态大模型,首创视觉原语推理框架突破“参照鸿沟”
四月底,AI开源社区迎来一个重要节点。4月30日,DeepSeek在GitHub上正式开源了其多模态大模型,并同步发布了一份技术报告。这份报告的核心,在于首次系统性地阐述了一种名为“视觉原语”的新型推理框架。它的目标很明确:直指当前多模态大语言模型在空间参照类任务中长期存在的一个核心痛点。
那么,当前的主流方法卡在了哪里?目前,大多数链式思维推理技术都深深植根于语言建模的范式。简单来说,研究者的努力方向,大多集中在如何让模型“看”得更细、“认”得更准——比如提升对图像局部细节的感知与识别能力。这当然有价值,但DeepSeek团队在报告中指出了一个更深层的问题:这条路可能没有触及最本质的挑战。
这个本质挑战,就是自然语言与精确空间表达之间那道天然的“鸿沟”。我们人类的语言充满了模糊性和上下文依赖,比如“左上角那个”、“右边靠下的部分”。而计算机需要的是像坐标、边界框这样精确无误的指令。这种结构性落差,被团队称为“参照鸿沟”。正是这道鸿沟,让模型在需要精确定位的推理任务中常常力不从心。
如何弥合这道鸿沟?DeepSeek的答案是“基于视觉原语的思考”。这个框架的思路颇为巧妙:它不再仅仅让模型处理文字和像素,而是将点、边界框这类本身就带有明确空间语义的几何元素,直接作为模型推理的基本单元。你可以把它理解为,给模型的“思维语言”里加入了一套标准的“空间词汇表”。
这样一来,模型在推理过程中,就能动态地生成一些可定位、可指代的“空间锚点”。原本抽象的思考过程,比如“分析A物体和B物体的相对位置”,现在可以被稳定地映射到图像中具体的物理坐标上。这就好比在思考时,能随时在脑海的图像上“钉图钉”、“画方框”,让每一步推理都落在实处。
效果如何?实测数据给出了答案。在多项需要精确计数和复杂空间关系推理的基准测试中,采用了该框架的模型表现达到了领先水平,其整体性能与当前主流的前沿模型持平。值得注意的是,在这份开源报告发布之前,DeepSeek已经向用户开放了具备多模态理解能力的识图功能,此次开源可视为其技术路线的一次集中展示与深化。
