DeepSeek识图功能深度测评:图文交互新纪元权威指南

2026-05-09阅读 0热度 0
DeepSeek

DeepSeek的“识图模式”已结束灰度测试,面向广大测试用户全面开放。现在,输入框上方与“快速模式”、“专家模式”并列的新按钮清晰可见。这并非简单的OCR文字提取,而是标志着模型正式具备了视觉感知与理解能力。

其实战表现究竟如何?综合用户实测反馈,其能力覆盖范围相当广泛。

从“博物学家”到“截图转码器”

在基础图像识别层面,它展现出“博物学家”般的素养。有用户上传博物馆拍摄的未知文物照片,开启“深度思考”后,模型不仅精准描述了器物的纹理与材质特征,更准确推断出该玉器属于18世纪清代乾隆时期的“痕都斯坦”风格。

面对高难度逻辑推理题,其硬核分析能力同样可靠。例如,一项需要在大脑中拼合三维立方体的空间推理测试,若不开启思考模式,模型容易出错;但启用深度思考后,经过约4分钟的链式推理,它能稳定输出正确答案。

其“网感”识别能力尤为突出。上传流行的表情包或梗图,它能精准识别合影中的特定人物(例如从一张图片中同时准确区分出前总统特朗普与动漫角色鲁路修),并能解读图片中小猫的微妙情绪,准确捕捉网络迷因的幽默核心。

在生产力场景中,它堪称高效的“截图转码器”。无论是技术报告中的代码截图,还是复杂的UI界面或网页截图,它都能完整解析并提取所有文本信息。更进一步,它能反向生成可交互的HTML代码,甚至精确还原原网页的按钮跳转逻辑。

“边想边指”的核心技术

强大能力的背后是技术架构的革新。伴随识图功能上线,DeepSeek公开了其多模态模型的技术细节,核心在于名为“Thinking with Visual Primitives”(以视觉原语思考)的推理框架。

传统多模态大模型在处理密集信息图片时,常面临“指代鸿沟”问题:模型虽能“看到”图像元素,但在用“左边那个大的”这类模糊自然语言构建推理链时,极易因描述不准导致注意力漂移,最终产生错误。

DeepSeek的解决方案颇为精妙:它将点、边界框等代表空间位置的视觉元素,直接作为“思维的基本单元”嵌入模型的推理过程。这相当于为模型配备了“赛博手指”,使其能在思考过程中精确“指向”目标物体,从而彻底解决复杂空间布局中的逻辑指代难题。

该框架不仅推理高效,对计算资源也极为友好。技术报告显示,处理一张800×800分辨率的图片,DeepSeek仅消耗约90个tokens。相比之下,GPT与Claude等主流模型处理同等图片需消耗870至1100个tokens。在多项计数与空间推理的基准测试中,DeepSeek达到了媲美甚至超越前沿模型的性能水平。

初具视觉,仍有局限

当然,刚刚“睁开双眼”的DeepSeek,距离成熟仍有提升空间。综合用户反馈,当前识图模式存在几处明显短板。

首先是知识库更新的滞后性。部分测试案例显示,模型的推理过程与分析逻辑完全正确,但最终答案却出现偏差。例如,识别一款2025年底发布的最新手机型号时,由于知识截止于2025年,它虽能通过副屏等设计细节推断出品牌系列,但给出的具体型号信息仍是错误的。

其次,在面对“统计图中老虎数量”、视错觉图形等高难度、反直觉的题目时,其输出的准确性仍不稳定。甚至有时在经历长时间的“深度思考”后,反而产生了更严重的逻辑幻觉,导致最终推理链崩溃。

最后需明确,当前上线的识图模式本质是纯视觉理解模块,专注于图片识别与分析。诸如图像生成、视频理解或更广义的跨模态交互等功能,尚未集成于此版本中。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策