DeepSeek多模态识图功能上线测评

2026-06-23阅读 0热度 0

DeepSeek

说实话，DeepSeek出了识图模式这个消息，乍一听还挺让人懵的——识图？这东西不是本来就有的功能吗？我之前可是没少拿照片让它帮忙提取文字。

幸亏这话没说出口，不然真要闹笑话了。

后来在X上刷到了陈小康的推文才发现，事情远没有那么简单。

陈小康是DeepSeek多模态团队的带头人，北大本博毕业。DeepSeek V4发布后没几天，识图模式其实就上线了，只不过当时只对少部分用户开放灰度测试。而到了今天，这个功能终于大范围开放了——Web端和App端都能用。

重点来了：DeepSeek这次的识图模式，并不是从图片里提取文字，而是真正读懂了图像本身。用通俗的话说，DeepSeek终于“开了天眼”。

为了验证效果，我立马让它分析了一张图。

整个识图过程流畅得惊人。它先是判断出这是夜间足球比赛现场，位置大概率是VIP包厢或高级看台区域；接着分析人物——一位穿米色套装、手持墨镜、靠在护栏上的女士。然后，最关键的来了：它注意到了右下角护栏上的葡萄牙队徽。

这个细节才是真正见功夫的地方。因为如果只是粗略地看，谁都能说出一句“有个女士在球场”。但能注意到队徽，说明它在局部细节上有足够的敏感度。最终给出的结论也很有分寸：“很可能是里斯本的光明球场或巨龙球场”——没有武断地下定论，知道留下余地和假设空间。现在最怕的其实不是AI犯错，而是犯错之后还一本正经地胡说八道，那个纠错成本太高了。

更让我意外的是后面这段。

![image-20260618150516206](https://developer.qcloudimg.com/http-sa ve/yehe-5359587/0cc22575c900593e70086b77eefc3599.png)

它直接判断出这张图很可能是AI生成的。理由给得很具体：画面过于干净、光影效果太电影化、人物皮肤与背景边缘的融合过于平滑。现在网上的AI图越来越多，很多第一眼看过去已经看不出明显破绽了。即便是人肉眼来看，很多时候也只能说“感觉有点怪”，但很难给出像这样清晰、可验证的判断逻辑。

相比之下，之前ChatGPT检测AI图主要是从源头入手——通过检测SynthID水印或者内容凭证来判断。而DeepSeek这条路更直接：从图像本身的视觉特征出发做判断。

这种基于图像本身的推理能力，在另一个场景下同样表现抢眼。我拿了一张充满戏谑意味的图让它来解释。

推理过程实在太长，用图文完全展示效果不好，录了个视频可以感受一下。

整个推理链条的流畅度相当高，不过也犯了两个错误：一是把Claude 3.5错认成了Fable 5，二是把被封禁的原因归结为“无法向中国大陆用户提供服务”。但这类问题说到底不是能力不行，而是知识库训练时间的问题——目前的训练数据截止时间还比较早。

![image-20260618154844418](https://developer.qcloudimg.com/http-sa ve/yehe-5359587/0b893e8ee98cf6c489d6b9149d60f55a.png)

如果需要查询最近的消息，得依靠联网搜索能力。但尴尬的是，识图功能目前不支持联网搜索——这就成了一个死锁。也就是说，目前的识图功能更擅长判断一张图是不是AI生成的，以及从图像本身出发做分析和解释，但还无法实时地理解今天刚发生的事情。

不过，正是这个限制，反而让我更清楚地看到了它现阶段最擅长的事情是什么。它不是“看图搜索引擎”，更像一个“看图推理器”。给它一张图，它能拆解出画面里的元素、人物、文字、空间关系和画面质感，然后给出有逻辑的解释。但如果这张图背后依赖的是昨天刚上的新闻，或者今天刚火起来的梗，它的表现就会打折扣。

但不管怎么说，这次更新至少说明了一件事：DeepSeek终于把多模态这个入口补上了。接下来要拼的，是“看见”之后，能不能真正把问题想明白、把事做下去。

DeepSeek多模态识图功能上线测评

相关阅读

最新教程

最新资讯