DeepSeek视觉功能深度测评：AI多模态能力实测与排行榜

2026-05-17阅读 0热度 0

DeepSeek

五一假期前，DeepSeek发布了一份视觉多模态技术报告，算是给业界扔下了一枚“认知冲击波”。

点开报告前，大家心里多少有些预期：无非是模型能看多清、分辨率能到多高。毕竟过去一年，多模态领域的竞赛基本都围绕这个展开。OpenAI在推“thinking with images”，让模型在推理中裁剪、放大图像；Gemini和Claude也在不断堆高分辨率，处理更复杂的视觉输入。整个行业的默认假设是：只要模型“看”得足够细，视觉推理能力自然就上去了。

但读完DeepSeek的报告，你会发现他们走了一条截然不同的路。他们没有在“看清更多像素”上内卷，而是把目光投向了更底层、也更棘手的问题：就算模型看清楚了，你怎么保证它在长达数步的推理过程中，所指的对象始终如一？

这其实是多模态推理里一个长期被忽视的“死xue”。人类看图时，可以自然地用手指点明对象，说“这个人”、“那个东西”。但模型呢？它只能用模糊的语言描述：“左边那个”、“上面那条线”。一旦画面元素复杂起来，这种语言指代就会漂移，整个推理链条随之崩塌。

DeepSeek的解法简单而深刻：既然人类需要手指来锚定视觉对象，那就给AI也装一根“赛博手指”。

从连续视觉到离散符号

报告开篇就抛出了一个核心问题：多模态真正的难点，或许不在于“看见”，而在于如何在连续的推理中，稳定地“指向”同一个视觉对象。

举个例子，你跟朋友说“菜市场里，张老太太的摊位菜最新鲜”。但菜市场里老太太那么多，你朋友怎么知道是哪一位？但如果你直接抬手一指：“就那个”，一切就清晰了。DeepSeek将这个问题命名为“引用鸿沟”。

过去一年，前沿模型主要在攻克“感知鸿沟”——解决因图像模糊、分辨率低导致的“看不清”问题。GPT、Claude、Gemini通过高分辨率裁剪、动态分块等技术，让模型能捕捉更多细节。这个方向当然有价值，但DeepSeek指出，即便看得再清楚，模型在复杂的空间推理（比如数数、走迷宫）上，仍然会逻辑崩溃。

问题的根源在于自然语言本身。语言在描述抽象概念和因果关系时得心应手，但在精确定位空间关系和拓扑结构时，天生就存在模糊性。照片里有十几只狗，你说“左边那只”，模型根本无法精确定位；让它数狗的数量，它很可能在推理过程中就记混了哪些数过、哪些没数。

那么，一个本质上是语言模型的系统，该如何突破这个局限？

答案就是前面提到的那根“手指”。DeepSeek提出了“视觉基元”的核心概念，将边界框和点这两种最基础的空间标记，提升为模型“思维的最小单位”。

这与此前的技术有本质区别。早期的多模态模型输出边界框，往往只是最终结果的展示，就像考试只交答案，不呈现解题过程。后来的一些研究虽然让模型在思考中画框，但目的仍是辅助“看准”，框体本身并非推理的有机组成部分。

DeepSeek的做法是革命性的：他们让这些空间标记直接嵌入模型的推理流，成为思考过程本身。模型在输出“我看到了一只狗”的同时，会同步输出“[[x1, y1, x2, y2]]”这样的坐标。这种“边推理边指向”的机制，使得模型的每一步思考都牢牢锚定在图像的具体坐标上。

报告中的迷宫导航示例极具说服力：模型从起点开始，探索、回溯、再尝试，最终输出一串完整的坐标路径。每个坐标都对应迷宫中的一个位置，整个推理过程因此变得可追踪、可验证，模型不会再“迷路”。

这条技术路径与OpenAI的“thinking with images”形成了有趣的对比。OpenAI强调的是通用能力，让图像本身成为思维链的一部分，模型可以在内部对图像进行裁剪、放大、旋转等操作，整个过程更偏向一个强大的“视觉工作台”，但中间过程对用户而言是黑箱。

DeepSeek则走向了更“符号化”的道路。它让坐标直接进入思维链文本，将视觉对象转化为推理中可复用的明确锚点。这样做的好处是，整个推理过程完全透明，更容易被训练、检查和评估。尤其在迷宫、路径追踪这类任务上，可以对路径合法性、轨迹覆盖度等进行更精细的反馈。模型学到的不仅是一个答案，更是一套用视觉基元进行结构化推理的方法。

效率才是核心

这份报告中有一个极易被忽略却至关重要的细节：DeepSeek模型处理图像时消耗的token数量，远低于其他主流模型。

数据显示，处理一张800×800分辨率的图像，Gemini-3-Flash约需1100个token，Claude-Sonnet-4.6约870个，GPT-5.4约740个，Qwen3-VL约660个，而DeepSeek仅需约361个，其KV缓存中更是只保留了约90个条目。这个差距是数量级的——DeepSeek的token消耗只有Gemini的三分之一，KV缓存条目仅为十分之一左右。

如此极致的效率从何而来？关键在于一套名为“压缩稀疏注意力”的机制。

可以这样理解：当你向朋友描述一张全家福时，你不会从“左数第237个像素是红色”开始，而是直接说“左边是我妈，右边是我爸”。DeepSeek-ViT先将图像压缩成更少的视觉token，CSA机制再将这些token在KV缓存中的表示进一步压缩。

具体流程是：一张756×756的图像（含571536个像素）经ViT处理，以14×14的块大小切分，生成2916个patch token。随后进行3×3的空间压缩，每9个相邻token沿通道维度压缩成1个，得到324个视觉token。这些token进入大语言模型预填充后，CSA机制会将其在KV缓存中再压缩4倍，最终仅保留81个条目。从原始像素到最终缓存，整体压缩比高达7056倍。

当多数厂商还在用堆砌算力的“暴力”方法时，DeepSeek选择在信息论层面做取舍，只保留最直观、最核心的信息。这种策略带来了多重优势：

首先是推理速度的飞跃。图像token数量直接决定模型生成每个新token时的计算量。如果图像占用1000个token，每次生成都需对这1000个token做注意力计算；若只占90个，计算负荷便大幅减轻。这对机器人视觉、自动驾驶等需要实时响应的场景至关重要。

其次是内存占用的锐减。KV缓存是大模型推理的内存瓶颈。DeepSeek将视觉token的缓存压缩到极致，意味着同等硬件下能处理更多图像或更长的对话序列，极大降低了规模化部署的成本门槛。

最后是上下文容量的隐性提升。如果一张图占1000个token，一个128k的上下文窗口只能容纳百余张图；若只占300个，则可处理超过400张。这对于需要对比多图、分析长视频、理解大量文档的场景，价值不言而喻。

当然，一个关键问题随之而来：如此剧烈的压缩，会不会损失关键信息？

DeepSeek并未否认压缩会带来信息损失。他们的主张是，对于所聚焦的这组空间推理和计数任务，压缩后的表征已然足够有效。每一步压缩都在剔除冗余和噪声，保留对推理最重要的信息。事实上，视觉基元机制本身也是一种高效的信息压缩——一个边界框用4个数字就能精确定位一个物体，其信息密度远高于原始像素流。

从结果看，这种压缩非但没有损害性能，反而在特定任务上带来了提升。这强烈暗示，对于许多视觉推理任务，瓶颈或许不在于“看得不够清”，而在于“没有找到对的表征方式”。

DeepSeek的效率优势，本质上是一个副产品。它印证了公司自“DeepSeek时刻”以来贯穿始终的一条暗线：真正的智能，未必源于更大的模型和更多的算力，而源于对问题本质更深层次的理解。当你真正理解了视觉推理需要什么，你就不需要那么多token；当你找到了合适的表征范式，效率的提升便水到渠成。

未竟之事

DeepSeek在报告的“局限性”部分坦诚列出了当前方法的几个核心挑战。这些问题并非细枝末节，而是指向了视觉推理能力进化的下一个台阶。

首要问题是触发词依赖。目前，模型的“用视觉基元思考”能力需要显式的触发词（如特定的指令格式）才能激活。模型尚不能自主判断何时该调用边界框或点坐标，何时仅用语言描述即可。理想的模型应具备一个“元认知”层，能根据任务复杂度自动切换推理策略。这无疑是下一步需要攻克的关键。

其次是分辨率限制。受输入token数量的严格约束，模型在需要极高精度的细粒度场景下（如医疗影像分析、工业瑕疵检测）表现会受限。报告指出，这可以通过整合现有的高分辨率方法（如动态裁剪）来互补解决。未来或许会出现一种混合方案：常规任务使用高效的压缩表征和视觉基元；当模型自主识别出需要细粒度分析的局部区域时，再动态调用高分辨率处理模块。

第三个挑战是跨场景泛化能力。

报告承认，在解决复杂拓扑推理（如迷宫导航、路径追踪）时，模型的泛化能力仍有局限。尽管在精心构建的合成测试集上取得了领先的准确率（66.9%和56.7%），但当面对真实世界错综复杂的地图或管线图时，性能可能下降。这需要通过构建更大规模、更高多样性的真实世界数据来持续锤炼。

此外，这套以视觉基元为核心的新范式，与现有的多模态生态存在一定的兼容性挑战。主流的数据集和评测基准大多基于传统的“图像-文本”配对设计，并未考虑视觉基元的输出格式。这要求社区要么适配新的评测方法，要么DeepSeek需要证明其基础视觉理解能力同样卓越。

能在技术报告中如此清晰地剖析自身局限，本身就体现了一种难能可贵的清醒。在技术高速迭代的领域，提出正确的问题，往往比给出一个暂时的完美答案更有价值，因为它指明了前进的方向。DeepSeek的这份报告，不仅展示了一根给AI的“赛博手指”，更重要的或许是，它让我们开始重新思考，什么才是视觉智能真正需要跨越的鸿沟。

DeepSeek视觉功能深度测评：AI多模态能力实测与排行榜

从连续视觉到离散符号

效率才是核心

未竟之事

相关阅读

最新教程

最新资讯