DeepSeek视觉功能深度测评:AI多模态能力实测与排行榜

2026-05-17阅读 0热度 0
DeepSeek

DeepSeek给AI装了根赛博手指,于是它能看见了

五一假期前,DeepSeek发布了一份视觉多模态技术报告,算是给业界扔下了一枚“认知冲击波”。

点开报告前,大家心里多少有些预期:无非是模型能看多清、分辨率能到多高。毕竟过去一年,多模态领域的竞赛基本都围绕这个展开。OpenAI在推“thinking with images”,让模型在推理中裁剪、放大图像;Gemini和Claude也在不断堆高分辨率,处理更复杂的视觉输入。整个行业的默认假设是:只要模型“看”得足够细,视觉推理能力自然就上去了。

但读完DeepSeek的报告,你会发现他们走了一条截然不同的路。他们没有在“看清更多像素”上内卷,而是把目光投向了更底层、也更棘手的问题:就算模型看清楚了,你怎么保证它在长达数步的推理过程中,所指的对象始终如一?

这其实是多模态推理里一个长期被忽视的“死xue”。人类看图时,可以自然地用手指点明对象,说“这个人”、“那个东西”。但模型呢?它只能用模糊的语言描述:“左边那个”、“上面那条线”。一旦画面元素复杂起来,这种语言指代就会漂移,整个推理链条随之崩塌。

DeepSeek的解法简单而深刻:既然人类需要手指来锚定视觉对象,那就给AI也装一根“赛博手指”。

从连续视觉到离散符号

报告开篇就抛出了一个核心问题:多模态真正的难点,或许不在于“看见”,而在于如何在连续的推理中,稳定地“指向”同一个视觉对象。

举个例子,你跟朋友说“菜市场里,张老太太的摊位菜最新鲜”。但菜市场里老太太那么多,你朋友怎么知道是哪一位?但如果你直接抬手一指:“就那个”,一切就清晰了。DeepSeek将这个问题命名为“引用鸿沟”。

过去一年,前沿模型主要在攻克“感知鸿沟”——解决因图像模糊、分辨率低导致的“看不清”问题。GPT、Claude、Gemini通过高分辨率裁剪、动态分块等技术,让模型能捕捉更多细节。这个方向当然有价值,但DeepSeek指出,即便看得再清楚,模型在复杂的空间推理(比如数数、走迷宫)上,仍然会逻辑崩溃。

问题的根源在于自然语言本身。语言在描述抽象概念和因果关系时得心应手,但在精确定位空间关系和拓扑结构时,天生就存在模糊性。照片里有十几只狗,你说“左边那只”,模型根本无法精确定位;让它数狗的数量,它很可能在推理过程中就记混了哪些数过、哪些没数。

那么,一个本质上是语言模型的系统,该如何突破这个局限?

答案就是前面提到的那根“手指”。DeepSeek提出了“视觉基元”的核心概念,将边界框和点这两种最基础的空间标记,提升为模型“思维的最小单位”。

这与此前的技术有本质区别。早期的多模态模型输出边界框,往往只是最终结果的展示,就像考试只交答案,不呈现解题过程。后来的一些研究虽然让模型在思考中画框,但目的仍是辅助“看准”,框体本身并非推理的有机组成部分。

DeepSeek的做法是革命性的:他们让这些空间标记直接嵌入模型的推理流,成为思考过程本身。模型在输出“我看到了一只狗”的同时,会同步输出“[[x1, y1, x2, y2]]”这样的坐标。这种“边推理边指向”的机制,使得模型的每一步思考都牢牢锚定在图像的具体坐标上。

DeepSeek给AI装了根赛博手指,于是它能看见了

报告中的迷宫导航示例极具说服力:模型从起点开始,探索、回溯、再尝试,最终输出一串完整的坐标路径。每个坐标都对应迷宫中的一个位置,整个推理过程因此变得可追踪、可验证,模型不会再“迷路”。

这条技术路径与OpenAI的“thinking with images”形成了有趣的对比。OpenAI强调的是通用能力,让图像本身成为思维链的一部分,模型可以在内部对图像进行裁剪、放大、旋转等操作,整个过程更偏向一个强大的“视觉工作台”,但中间过程对用户而言是黑箱。

DeepSeek则走向了更“符号化”的道路。它让坐标直接进入思维链文本,将视觉对象转化为推理中可复用的明确锚点。这样做的好处是,整个推理过程完全透明,更容易被训练、检查和评估。尤其在迷宫、路径追踪这类任务上,可以对路径合法性、轨迹覆盖度等进行更精细的反馈。模型学到的不仅是一个答案,更是一套用视觉基元进行结构化推理的方法。

效率才是核心

这份报告中有一个极易被忽略却至关重要的细节:DeepSeek模型处理图像时消耗的token数量,远低于其他主流模型。

数据显示,处理一张800×800分辨率的图像,Gemini-3-Flash约需1100个token,Claude-Sonnet-4.6约870个,GPT-5.4约740个,Qwen3-VL约660个,而DeepSeek仅需约361个,其KV缓存中更是只保留了约90个条目。这个差距是数量级的——DeepSeek的token消耗只有Gemini的三分之一,KV缓存条目仅为十分之一左右。

如此极致的效率从何而来?关键在于一套名为“压缩稀疏注意力”的机制。

可以这样理解:当你向朋友描述一张全家福时,你不会从“左数第237个像素是红色”开始,而是直接说“左边是我妈,右边是我爸”。DeepSeek-ViT先将图像压缩成更少的视觉token,CSA机制再将这些token在KV缓存中的表示进一步压缩。

具体流程是:一张756×756的图像(含571536个像素)经ViT处理,以14×14的块大小切分,生成2916个patch token。随后进行3×3的空间压缩,每9个相邻token沿通道维度压缩成1个,得到324个视觉token。这些token进入大语言模型预填充后,CSA机制会将其在KV缓存中再压缩4倍,最终仅保留81个条目。从原始像素到最终缓存,整体压缩比高达7056倍。

当多数厂商还在用堆砌算力的“暴力”方法时,DeepSeek选择在信息论层面做取舍,只保留最直观、最核心的信息。这种策略带来了多重优势:

首先是推理速度的飞跃。图像token数量直接决定模型生成每个新token时的计算量。如果图像占用1000个token,每次生成都需对这1000个token做注意力计算;若只占90个,计算负荷便大幅减轻。这对机器人视觉、自动驾驶等需要实时响应的场景至关重要。

其次是内存占用的锐减。KV缓存是大模型推理的内存瓶颈。DeepSeek将视觉token的缓存压缩到极致,意味着同等硬件下能处理更多图像或更长的对话序列,极大降低了规模化部署的成本门槛。

最后是上下文容量的隐性提升。如果一张图占1000个token,一个128k的上下文窗口只能容纳百余张图;若只占300个,则可处理超过400张。这对于需要对比多图、分析长视频、理解大量文档的场景,价值不言而喻。

当然,一个关键问题随之而来:如此剧烈的压缩,会不会损失关键信息?

DeepSeek并未否认压缩会带来信息损失。他们的主张是,对于所聚焦的这组空间推理和计数任务,压缩后的表征已然足够有效。每一步压缩都在剔除冗余和噪声,保留对推理最重要的信息。事实上,视觉基元机制本身也是一种高效的信息压缩——一个边界框用4个数字就能精确定位一个物体,其信息密度远高于原始像素流。

从结果看,这种压缩非但没有损害性能,反而在特定任务上带来了提升。这强烈暗示,对于许多视觉推理任务,瓶颈或许不在于“看得不够清”,而在于“没有找到对的表征方式”。

DeepSeek的效率优势,本质上是一个副产品。它印证了公司自“DeepSeek时刻”以来贯穿始终的一条暗线:真正的智能,未必源于更大的模型和更多的算力,而源于对问题本质更深层次的理解。当你真正理解了视觉推理需要什么,你就不需要那么多token;当你找到了合适的表征范式,效率的提升便水到渠成。

未竟之事

DeepSeek在报告的“局限性”部分坦诚列出了当前方法的几个核心挑战。这些问题并非细枝末节,而是指向了视觉推理能力进化的下一个台阶。

首要问题是触发词依赖。目前,模型的“用视觉基元思考”能力需要显式的触发词(如特定的指令格式)才能激活。模型尚不能自主判断何时该调用边界框或点坐标,何时仅用语言描述即可。理想的模型应具备一个“元认知”层,能根据任务复杂度自动切换推理策略。这无疑是下一步需要攻克的关键。

其次是分辨率限制。受输入token数量的严格约束,模型在需要极高精度的细粒度场景下(如医疗影像分析、工业瑕疵检测)表现会受限。报告指出,这可以通过整合现有的高分辨率方法(如动态裁剪)来互补解决。未来或许会出现一种混合方案:常规任务使用高效的压缩表征和视觉基元;当模型自主识别出需要细粒度分析的局部区域时,再动态调用高分辨率处理模块。

第三个挑战是跨场景泛化能力。DeepSeek给AI装了根赛博手指,于是它能看见了

报告承认,在解决复杂拓扑推理(如迷宫导航、路径追踪)时,模型的泛化能力仍有局限。尽管在精心构建的合成测试集上取得了领先的准确率(66.9%和56.7%),但当面对真实世界错综复杂的地图或管线图时,性能可能下降。这需要通过构建更大规模、更高多样性的真实世界数据来持续锤炼。

此外,这套以视觉基元为核心的新范式,与现有的多模态生态存在一定的兼容性挑战。主流的数据集和评测基准大多基于传统的“图像-文本”配对设计,并未考虑视觉基元的输出格式。这要求社区要么适配新的评测方法,要么DeepSeek需要证明其基础视觉理解能力同样卓越。

能在技术报告中如此清晰地剖析自身局限,本身就体现了一种难能可贵的清醒。在技术高速迭代的领域,提出正确的问题,往往比给出一个暂时的完美答案更有价值,因为它指明了前进的方向。DeepSeek的这份报告,不仅展示了一根给AI的“赛博手指”,更重要的或许是,它让我们开始重新思考,什么才是视觉智能真正需要跨越的鸿沟。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策