DeepSeek-Vision技术解析：七千倍极致压缩与视觉原语如何以极低算力破解多模态指代难题

2026-05-07阅读 0热度 0

DeepSeek

DeepSeek视觉模式测试曝光：用“视觉原语”思考，13B模型如何挑战GPT-5.4？

编辑 | 林芯

出品 | 51CTO技术栈（微信号：blog51cto）

继上周的V4模型发布之后，这周DeepSeek又发新论文了！

本周，论文作者陈小康在X上的一则推文“现在，我们看见你了”，宣布了“DeepSeek的视觉模式正在测试中”。

图片

多模态大模型有一个被长期忽视的致命缺陷：它无法像人类一样，在思考时精确地“指认”画面中的物体。

这可不是简单的“看没看清”问题，而是更深层的“指不指出”问题。模型或许能描述得头头是道，但真要它把描述和画面中那个具体的点对上号，往往就露怯了。

在这篇名为《用视觉原语思考》的论文里，DeepSeek 将这个缺陷命名为“指代鸿沟”，并提出了一种让AI在推理时“边指边想”的全新方法。

结果如何？在多个极度考验空间定位能力的基准测试中，这套方法让一个仅激活13B参数的模型，做到了与GPT-5.4、Claude-4.6等巨头正面较量。而它消耗的算力，仅为其它顶级模型的几十分之一。

为什么顶尖的大模型，连“数数”都数不清？

举个例子，当你问Gemini一张照片里有几只狗时，它可能会“严谨地”列出所有狗的特征，最后却给出一个错误的数字。

图片

问题出在哪里？DeepSeek 的论文给出了核心答案：指代鸿沟。症结并非AI“眼神不好”，而是它一直在用“文字”去执行一个本质上属于“空间”的任务。

想想看，Gemini输出的“左侧后排”这类描述词，听起来精准，但在视觉像素世界里，可能隔着几十甚至上百个像素的距离。当模型最后需要做总结，回溯自己到底指过哪些对象时，文字描述之间那些微妙的、不精确的差别，就很容易导致混乱——两个不同的对象被误认为同一个，或者某个对象直接被彻底漏掉。

反观人类数数，过程直观得多：眼睛锁定位置，手指（或注意力）点向坐标，指一个，数一个，清晰无误。

过去几年，行业在提升模型视觉能力上，几乎都把宝押在了“看得更清”上：追求更高的分辨率、更密集的图像切分、更精细的补丁。这些努力确实成功填平了“感知鸿沟”，让AI能把画面细节看得一清二楚。但一个残酷的现实是：看清楚，并不等于能想清楚。感知的精度，并未自动转化为推理的准确度。

解法：给AI接上一根像人类一样的“手指”

那么，DeepSeek 是如何破解这道难题的？

答案直接而巧妙：将空间标记——也就是边界框和坐标点——直接作为语言的一部分，嵌入到AI的思考流里。研究人员将这两者定义为“视觉原语”，即构成视觉思维的最小单元。

举个例子就明白了：

当被问及一张合照里有多少人时，传统模型的解法是生成“左前排穿红衣的女士”、“中排戴眼镜的男士”等文本描述。

而 DeepSeek 的解法是：看到一个对象，就为它确定一个坐标或框定一个范围。

图片

这套框架根据任务特性，精心设计了两种视觉原语：

边界框：擅长锁定固定物体的边界，用于计数、属性对比、多物体空间推理。因为它明确框定了物体的范围，所以模型可以非常确定地说“就是这一个”。

坐标点：擅长处理抽象的空间引用，比如追踪一条复杂曲线的走向、在迷宫中探索可行路径。一系列连续的点可以构成一条运动轨迹，清晰地告诉模型“从这里移动到了那里”。

实战结果：是骡子是马，拉出来溜溜

聊完了“为什么”和“怎么治”，是时候用数据说话了——这根“手指”到底管不管用，成绩单最直观。

DeepSeek 将自家模型推上擂台，与当前多模态领域的几位头部选手进行了一场正面较量。参赛阵容包括Gemini-3-Flash、GPT-5.4、Claude-Sonnet-4.6，以及Gemma4-31B和Qwen3-VL-235B-A22B-Thinking。

图片

从公布的数据来看，在计数和空间推理这些相对“成熟”的测试科目上，DeepSeek的模型虽然取得了多项第一，但与第二名的差距咬得很紧。然而，在拓扑推理这片“深水区”中，DeepSeek 反而建立起了明显的优势。

计数：在CountQA基准上，GPT-5.4得分48.3，Claude-4.6更是低至34.8。而DeepSeek这个13B的模型拿到了64.9分，与Gemini-3-Flash的66.1几乎持平，稳居第二。在Pixmo-Count（精确匹配）上表现更猛，以89.2分登顶，将Gemini的88.2分挤到了身后。

空间推理：DeepSeek模型表现优异，排名第一或与其他顶级模型持平。

拓扑推理：所有模型在这两项高难度任务上都表现挣扎。迷宫导航的最高分也才66.9，路径追踪更是只有56.7。但就在这个“全员不及格”的赛道上，DeepSeek占据了优势。具体来看，在DS_Maze_Na vigation（迷宫导航）上，Gemini-3-Flash得49.4，GPT-5.4得50.6，Claude-4.6得48.9——基本在50分上下徘徊。而DeepSeek拿到了66.9分。在DS_Path_Tracing（路径追踪）上，DeepSeek得分56.7，而其他模型则在30到46分之间徘徊。

超高性价比

看完成绩，一个非常现实的问题随之而来——性能如此强悍，代价（或者说成本）有多大？

七千倍的极致压缩

一张756×756分辨率的图像，按照标准流程，会先被转换成2916个图像补丁令牌送入大模型。经过内部视觉编码器的3×3压缩，这个数字先被压缩到324个。这已经是个很小的数字了。但真正的杀手锏，来自底层大模型DeepSeek-V4-Flash自带的一项技术——压缩稀疏注意力机制。这项技术在键值缓存中，对视觉令牌又进行了一次4倍的压缩。

图片

最终，一张756×756的高清图，在模型内部只占用了81个KV缓存条目。从原始像素到最终的KV缓存，整体压缩比达到了惊人的7056倍。

更重要的是，七千多倍的压缩，极大节省了算力。

在处理高分辨率图像时，传统模型往往需要消耗成百上千的视觉令牌。以一张800×800的图片为例，在Gemini、GPT、Claude等主流模型上，视觉令牌常常要占用几百甚至上千个KV缓存条目。而DeepSeek的这个模型，只用了大约90个。

训练模式大揭秘：两步走

预训练：

首先，团队进行了大规模的网络数据爬取。

他们从互联网上收集了将近十万个（97984个）与“框定位”相关的数据源——范围从HuggingFace上的目标检测数据集，到各种垂直领域的专业标注库。然后，用一套两阶段的自动过滤流水线进行清洗。

第一阶段，语义审查。利用一个大模型驱动的智能体，自动筛掉三类数据：无意义的机器代码和乱码（比如类别名仅为“0”、“1”这种无法理解的标签）、无法泛化的私有实体（比如“我室友”）、以及标签语义模糊的数据（比如工业质检领域的“OK”和“NG”，或者“完好的苹果”和“完好的电路板”在视觉上毫无关联，却被标成了同一个标签）。

这一轮筛选后，近十万数据源剩下约四万三千个。

第二阶段，几何质量审查。检查标注的几何质量——严重漏标、严重截断和偏移、以及不合理的“巨型框”。这一轮筛选后，剩下三万一千多个高质量数据源。

为实现数据集平衡，我们设计了一种基于类别的采样策略。对于每个数据集中的每个类别，我们随机采样与该类别关联的 N 张图像（如果某类别可用图像总数少于 N，则全部保留）。由于单张图像可能同时属于多个类别，我们在按类别选择后，对聚合集执行全局去重。实践中，我们设定 N = 1,000，最终产生超过 4000 万个高质量样本。

后训练：

预训练让模型具备了通用的多模态先验和基础的视觉原语能力，但后训练需要一个规模虽小但精度极高的“冷启动”数据集。团队选择了最能受益于视觉原语推理（通过框或点）的代表性任务，并围绕四个关键维度设计冷启动数据：计数、空间推理与通用视觉问答、迷宫导航和路径追踪。

计数：将计数任务细分为两种类型：粗粒度计数和细粒度计数。

图片

空间推理与通用视觉问答：在构建冷启动数据时，优先考虑空间推理任务。其假设是，在此处培养的“用视觉原语思考”的能力，将自然泛化到更广泛的VQA场景。数据整理覆盖了自然图像和合成图像两种环境。

图片

迷宫导航：引入一个迷宫导航任务，要求模型判断迷宫的可解性，这需要从根本上理解空间连通性和可达性。

图片

路径追踪：该任务要求模型在交织重叠的线条网络中，追踪一条指定的曲线，并识别它最终到达的端点。此任务被实例化为通过程序生成的、包含纠缠曲线的图像进行线条追踪，其中每条线连接一个唯一标记的起点到一个端点。

图片

冷启动数据就绪后，后训练流水线分四步走：

第一步，专业化SFT（监督微调）。分别训练两个专家模型——一个主攻“框”推理，一个主攻“点”推理。训练数据由70%的通用多模态数据和30%的专项“视觉原语思考”数据混合而成。

第二步，专业化RL（强化学习）。用强化学习进一步强化两个专家模型。其核心创新在于奖励模型的设计：对于计数任务，采用平滑指数衰减函数，让“差一两个”和“差十个”受到的惩罚不同；迷宫导航的奖励则被拆分为因果探索进度、探索完整性、穿墙违规惩罚、路径有效性和答案正确性五个子项；路径追踪采用双向轨迹评估——正向检查预测点是否偏离真实路径，反向检查真实路径是否被预测轨迹完整覆盖。

第三步，统一RFT（强化微调）。利用两个专家模型在混合数据池上进行推演，筛选出高价值的训练样本，然后从零开始训练一个能够“框点通吃”的统一模型。

第四步，在线策略蒸馏。让统一模型同时向两个专家模型学习，使用KL散度损失来拉近与它们输出分布的距离——就像一个学生，同时跟着“框老师”和“点老师”学习本领。

局限与未来

当然，这项技术目前也存在一些局限。首先，受限于输入分辨率，模型在细粒度场景中的表现仍有优化空间，有时会导致输出的视觉原语（框或点）不够精确。

其次，当前“用视觉原语思考”的能力，在一定程度上依赖于显式的触发词来激活，离完全自然、内化的视觉推理还有距离。

第三，拓扑推理本身仍是一项技术深水区。尽管DeepSeek在与其他顶级模型的比较中占据了优势，但这一板块的整体得分仍然薄弱，挑战巨大。

写在最后：每一处都是干货和细节

有网友在X上对 DeepSeek 的技术论文制作了一张梗图，配文是：“DeepSeek的论文里全是细节与干货”。

图片

事实也确实如此，DeepSeek 每一次论文的发表，似乎都在为AI圈带来新的思考角度和可行路径。

对于论文中提出的“用视觉原语思考”这一新范式，有网友表达了强烈的肯定：“这是一种犀利的方法，将语言扎根于视觉之中。将这些空间标记作为最小的思维单元交织在一起，感觉像是一大进步。”

图片

各位技术同仁，如何看待 DeepSeek 这次在视觉模式上的新探索？