DeepSeek-Vision技术解析:七千倍极致压缩与视觉原语如何以极低算力破解多模态指代难题
DeepSeek视觉模式测试曝光:用“视觉原语”思考,13B模型如何挑战GPT-5.4?
编辑 | 林芯
出品 | 51CTO技术栈(微信号:blog51cto)
继上周的V4模型发布之后,这周DeepSeek又发新论文了!
本周,论文作者陈小康在X上的一则推文“现在,我们看见你了”,宣布了“DeepSeek的视觉模式正在测试中”。
多模态大模型有一个被长期忽视的致命缺陷:它无法像人类一样,在思考时精确地“指认”画面中的物体。
这可不是简单的“看没看清”问题,而是更深层的“指不指出”问题。模型或许能描述得头头是道,但真要它把描述和画面中那个具体的点对上号,往往就露怯了。
在这篇名为《用视觉原语思考》的论文里,DeepSeek 将这个缺陷命名为“指代鸿沟”,并提出了一种让AI在推理时“边指边想”的全新方法。
结果如何?在多个极度考验空间定位能力的基准测试中,这套方法让一个仅激活13B参数的模型,做到了与GPT-5.4、Claude-4.6等巨头正面较量。而它消耗的算力,仅为其它顶级模型的几十分之一。
为什么顶尖的大模型,连“数数”都数不清?
举个例子,当你问Gemini一张照片里有几只狗时,它可能会“严谨地”列出所有狗的特征,最后却给出一个错误的数字。
问题出在哪里?DeepSeek 的论文给出了核心答案:指代鸿沟。症结并非AI“眼神不好”,而是它一直在用“文字”去执行一个本质上属于“空间”的任务。
想想看,Gemini输出的“左侧后排”这类描述词,听起来精准,但在视觉像素世界里,可能隔着几十甚至上百个像素的距离。当模型最后需要做总结,回溯自己到底指过哪些对象时,文字描述之间那些微妙的、不精确的差别,就很容易导致混乱——两个不同的对象被误认为同一个,或者某个对象直接被彻底漏掉。
反观人类数数,过程直观得多:眼睛锁定位置,手指(或注意力)点向坐标,指一个,数一个,清晰无误。
过去几年,行业在提升模型视觉能力上,几乎都把宝押在了“看得更清”上:追求更高的分辨率、更密集的图像切分、更精细的补丁。这些努力确实成功填平了“感知鸿沟”,让AI能把画面细节看得一清二楚。但一个残酷的现实是:看清楚,并不等于能想清楚。感知的精度,并未自动转化为推理的准确度。
解法:给AI接上一根像人类一样的“手指”
那么,DeepSeek 是如何破解这道难题的?
答案直接而巧妙:将空间标记——也就是边界框和坐标点——直接作为语言的一部分,嵌入到AI的思考流里。研究人员将这两者定义为“视觉原语”,即构成视觉思维的最小单元。
举个例子就明白了:
当被问及一张合照里有多少人时,传统模型的解法是生成“左前排穿红衣的女士”、“中排戴眼镜的男士”等文本描述。
而 DeepSeek 的解法是:看到一个对象,就为它确定一个坐标或框定一个范围。
这套框架根据任务特性,精心设计了两种视觉原语:
边界框:擅长锁定固定物体的边界,用于计数、属性对比、多物体空间推理。因为它明确框定了物体的范围,所以模型可以非常确定地说“就是这一个”。
坐标点:擅长处理抽象的空间引用,比如追踪一条复杂曲线的走向、在迷宫中探索可行路径。一系列连续的点可以构成一条运动轨迹,清晰地告诉模型“从这里移动到了那里”。
实战结果:是骡子是马,拉出来溜溜
聊完了“为什么”和“怎么治”,是时候用数据说话了——这根“手指”到底管不管用,成绩单最直观。
DeepSeek 将自家模型推上擂台,与当前多模态领域的几位头部选手进行了一场正面较量。参赛阵容包括Gemini-3-Flash、GPT-5.4、Claude-Sonnet-4.6,以及Gemma4-31B和Qwen3-VL-235B-A22B-Thinking。
从公布的数据来看,在计数和空间推理这些相对“成熟”的测试科目上,DeepSeek的模型虽然取得了多项第一,但与第二名的差距咬得很紧。然而,在拓扑推理这片“深水区”中,DeepSeek 反而建立起了明显的优势。
计数:在CountQA基准上,GPT-5.4得分48.3,Claude-4.6更是低至34.8。而DeepSeek这个13B的模型拿到了64.9分,与Gemini-3-Flash的66.1几乎持平,稳居第二。在Pixmo-Count(精确匹配)上表现更猛,以89.2分登顶,将Gemini的88.2分挤到了身后。
空间推理:DeepSeek模型表现优异,排名第一或与其他顶级模型持平。
拓扑推理:所有模型在这两项高难度任务上都表现挣扎。迷宫导航的最高分也才66.9,路径追踪更是只有56.7。但就在这个“全员不及格”的赛道上,DeepSeek占据了优势。具体来看,在DS_Maze_Na vigation(迷宫导航)上,Gemini-3-Flash得49.4,GPT-5.4得50.6,Claude-4.6得48.9——基本在50分上下徘徊。而DeepSeek拿到了66.9分。在DS_Path_Tracing(路径追踪)上,DeepSeek得分56.7,而其他模型则在30到46分之间徘徊。
超高性价比
看完成绩,一个非常现实的问题随之而来——性能如此强悍,代价(或者说成本)有多大?
七千倍的极致压缩
一张756×756分辨率的图像,按照标准流程,会先被转换成2916个图像补丁令牌送入大模型。经过内部视觉编码器的3×3压缩,这个数字先被压缩到324个。这已经是个很小的数字了。但真正的杀手锏,来自底层大模型DeepSeek-V4-Flash自带的一项技术——压缩稀疏注意力机制。这项技术在键值缓存中,对视觉令牌又进行了一次4倍的压缩。
最终,一张756×756的高清图,在模型内部只占用了81个KV缓存条目。从原始像素到最终的KV缓存,整体压缩比达到了惊人的7056倍。
更重要的是,七千多倍的压缩,极大节省了算力。
在处理高分辨率图像时,传统模型往往需要消耗成百上千的视觉令牌。以一张800×800的图片为例,在Gemini、GPT、Claude等主流模型上,视觉令牌常常要占用几百甚至上千个KV缓存条目。而DeepSeek的这个模型,只用了大约90个。
训练模式大揭秘:两步走
预训练:
首先,团队进行了大规模的网络数据爬取。
他们从互联网上收集了将近十万个(97984个)与“框定位”相关的数据源——范围从HuggingFace上的目标检测数据集,到各种垂直领域的专业标注库。然后,用一套两阶段的自动过滤流水线进行清洗。
第一阶段,语义审查。利用一个大模型驱动的智能体,自动筛掉三类数据:无意义的机器代码和乱码(比如类别名仅为“0”、“1”这种无法理解的标签)、无法泛化的私有实体(比如“我室友”)、以及标签语义模糊的数据(比如工业质检领域的“OK”和“NG”,或者“完好的苹果”和“完好的电路板”在视觉上毫无关联,却被标成了同一个标签)。
这一轮筛选后,近十万数据源剩下约四万三千个。
第二阶段,几何质量审查。检查标注的几何质量——严重漏标、严重截断和偏移、以及不合理的“巨型框”。这一轮筛选后,剩下三万一千多个高质量数据源。
为实现数据集平衡,我们设计了一种基于类别的采样策略。对于每个数据集中的每个类别,我们随机采样与该类别关联的 N 张图像(如果某类别可用图像总数少于 N,则全部保留)。由于单张图像可能同时属于多个类别,我们在按类别选择后,对聚合集执行全局去重。实践中,我们设定 N = 1,000,最终产生超过 4000 万个高质量样本。
后训练:
预训练让模型具备了通用的多模态先验和基础的视觉原语能力,但后训练需要一个规模虽小但精度极高的“冷启动”数据集。团队选择了最能受益于视觉原语推理(通过框或点)的代表性任务,并围绕四个关键维度设计冷启动数据:计数、空间推理与通用视觉问答、迷宫导航和路径追踪。
计数:将计数任务细分为两种类型:粗粒度计数和细粒度计数。
空间推理与通用视觉问答:在构建冷启动数据时,优先考虑空间推理任务。其假设是,在此处培养的“用视觉原语思考”的能力,将自然泛化到更广泛的VQA场景。数据整理覆盖了自然图像和合成图像两种环境。
迷宫导航:引入一个迷宫导航任务,要求模型判断迷宫的可解性,这需要从根本上理解空间连通性和可达性。
路径追踪:该任务要求模型在交织重叠的线条网络中,追踪一条指定的曲线,并识别它最终到达的端点。此任务被实例化为通过程序生成的、包含纠缠曲线的图像进行线条追踪,其中每条线连接一个唯一标记的起点到一个端点。
冷启动数据就绪后,后训练流水线分四步走:
第一步,专业化SFT(监督微调)。分别训练两个专家模型——一个主攻“框”推理,一个主攻“点”推理。训练数据由70%的通用多模态数据和30%的专项“视觉原语思考”数据混合而成。
第二步,专业化RL(强化学习)。 用强化学习进一步强化两个专家模型。其核心创新在于奖励模型的设计:对于计数任务,采用平滑指数衰减函数,让“差一两个”和“差十个”受到的惩罚不同;迷宫导航的奖励则被拆分为因果探索进度、探索完整性、穿墙违规惩罚、路径有效性和答案正确性五个子项;路径追踪采用双向轨迹评估——正向检查预测点是否偏离真实路径,反向检查真实路径是否被预测轨迹完整覆盖。
第三步,统一RFT(强化微调)。 利用两个专家模型在混合数据池上进行推演,筛选出高价值的训练样本,然后从零开始训练一个能够“框点通吃”的统一模型。
第四步,在线策略蒸馏。 让统一模型同时向两个专家模型学习,使用KL散度损失来拉近与它们输出分布的距离——就像一个学生,同时跟着“框老师”和“点老师”学习本领。
局限与未来
当然,这项技术目前也存在一些局限。首先,受限于输入分辨率,模型在细粒度场景中的表现仍有优化空间,有时会导致输出的视觉原语(框或点)不够精确。
其次,当前“用视觉原语思考”的能力,在一定程度上依赖于显式的触发词来激活,离完全自然、内化的视觉推理还有距离。
第三,拓扑推理本身仍是一项技术深水区。尽管DeepSeek在与其他顶级模型的比较中占据了优势,但这一板块的整体得分仍然薄弱,挑战巨大。
写在最后:每一处都是干货和细节
有网友在X上对 DeepSeek 的技术论文制作了一张梗图,配文是:“DeepSeek的论文里全是细节与干货”。
事实也确实如此,DeepSeek 每一次论文的发表,似乎都在为AI圈带来新的思考角度和可行路径。
对于论文中提出的“用视觉原语思考”这一新范式,有网友表达了强烈的肯定:“这是一种犀利的方法,将语言扎根于视觉之中。将这些空间标记作为最小的思维单元交织在一起,感觉像是一大进步。”
各位技术同仁,如何看待 DeepSeek 这次在视觉模式上的新探索?













