DeepSeek识图功能深度测评：图文交互新纪元权威指南

2026-05-09阅读 0热度 0

DeepSeek

DeepSeek的“识图模式”已结束灰度测试，面向广大测试用户全面开放。现在，输入框上方与“快速模式”、“专家模式”并列的新按钮清晰可见。这并非简单的OCR文字提取，而是标志着模型正式具备了视觉感知与理解能力。

其实战表现究竟如何？综合用户实测反馈，其能力覆盖范围相当广泛。

从“博物学家”到“截图转码器”

在基础图像识别层面，它展现出“博物学家”般的素养。有用户上传博物馆拍摄的未知文物照片，开启“深度思考”后，模型不仅精准描述了器物的纹理与材质特征，更准确推断出该玉器属于18世纪清代乾隆时期的“痕都斯坦”风格。

面对高难度逻辑推理题，其硬核分析能力同样可靠。例如，一项需要在大脑中拼合三维立方体的空间推理测试，若不开启思考模式，模型容易出错；但启用深度思考后，经过约4分钟的链式推理，它能稳定输出正确答案。

其“网感”识别能力尤为突出。上传流行的表情包或梗图，它能精准识别合影中的特定人物（例如从一张图片中同时准确区分出前总统特朗普与动漫角色鲁路修），并能解读图片中小猫的微妙情绪，准确捕捉网络迷因的幽默核心。

在生产力场景中，它堪称高效的“截图转码器”。无论是技术报告中的代码截图，还是复杂的UI界面或网页截图，它都能完整解析并提取所有文本信息。更进一步，它能反向生成可交互的HTML代码，甚至精确还原原网页的按钮跳转逻辑。

“边想边指”的核心技术

强大能力的背后是技术架构的革新。伴随识图功能上线，DeepSeek公开了其多模态模型的技术细节，核心在于名为“Thinking with Visual Primitives”（以视觉原语思考）的推理框架。

传统多模态大模型在处理密集信息图片时，常面临“指代鸿沟”问题：模型虽能“看到”图像元素，但在用“左边那个大的”这类模糊自然语言构建推理链时，极易因描述不准导致注意力漂移，最终产生错误。

DeepSeek的解决方案颇为精妙：它将点、边界框等代表空间位置的视觉元素，直接作为“思维的基本单元”嵌入模型的推理过程。这相当于为模型配备了“赛博手指”，使其能在思考过程中精确“指向”目标物体，从而彻底解决复杂空间布局中的逻辑指代难题。

该框架不仅推理高效，对计算资源也极为友好。技术报告显示，处理一张800×800分辨率的图片，DeepSeek仅消耗约90个tokens。相比之下，GPT与Claude等主流模型处理同等图片需消耗870至1100个tokens。在多项计数与空间推理的基准测试中，DeepSeek达到了媲美甚至超越前沿模型的性能水平。

初具视觉，仍有局限

当然，刚刚“睁开双眼”的DeepSeek，距离成熟仍有提升空间。综合用户反馈，当前识图模式存在几处明显短板。

首先是知识库更新的滞后性。部分测试案例显示，模型的推理过程与分析逻辑完全正确，但最终答案却出现偏差。例如，识别一款2025年底发布的最新手机型号时，由于知识截止于2025年，它虽能通过副屏等设计细节推断出品牌系列，但给出的具体型号信息仍是错误的。

其次，在面对“统计图中老虎数量”、视错觉图形等高难度、反直觉的题目时，其输出的准确性仍不稳定。甚至有时在经历长时间的“深度思考”后，反而产生了更严重的逻辑幻觉，导致最终推理链崩溃。

最后需明确，当前上线的识图模式本质是纯视觉理解模块，专注于图片识别与分析。诸如图像生成、视频理解或更广义的跨模态交互等功能，尚未集成于此版本中。

DeepSeek识图功能深度测评：图文交互新纪元权威指南

从“博物学家”到“截图转码器”

“边想边指”的核心技术

初具视觉，仍有局限

相关阅读

最新教程

最新资讯