识图测评榜单:豆包完胜DeepSeek
号外,号外。DeepSeek的识图功能终于上线了——那个大家一直心心念念的多模态短板,总算是补上了。
打开APP和官网翻了翻,确实多了一个“识图模式”。
赶紧拿“梁爷爷”的图片试了一波。
结果如何?看到答案的瞬间,直接笑出声。
世界观被彻底碘伏了——原来这个人是腾讯高级副总裁、微信创始人张小龙。
继续追问:那这个人又是谁?
世界观再次崩塌:这两个居然是同一个人?只不过换了个休息造型???
DeepSeek还一本正经地列出了1、2、3、4,有理有据。好吧,信了,这个人确实叫“张小龙”。
但问题来了——为什么每次给的答案都不一样?
穿蓝色外套的男人简直是迷一般的存在:可以是微信的张小龙,也可以是快手的宿华,还可以是搜狗的王小川。而那位休闲外套的男人,既可以是张小龙,也可以是百度创始人李彦宏。
说好听了,这功能充满乐趣;说难听了,就是一本正经地胡说八道。
坦白讲,并没有想批判谁,但确实笑得很大声。
好了,不逗大家了。图片里这个人,其实是梁文锋。
整件事最大的乐子在于:DeepSeek的大模型,居然不认识自家创始人。
但有意思的是——它却认识那位“遥遥领先”的东哥。
而且态度极其坚决,想忽悠一下都不行。难道说,提供显卡的才是“亲爹”?
认人这件事,果然还是包包更靠谱。
这个事,真能笑半天。好了,不闹了。
来测点真正实用的——给小学生拍照检查作业。
手上刚好有一份不错的样本。
这是一份小学四年级的试卷,而且是本届四年级学生的真实作业。恰好有人写了一份有错误的答卷。
直接把图片丢给DeepSeek。
大约花了140秒思考和作答,最后得出如下结论。
这一波表现确实不错。
成功识别了里面的几道图片题目,并进行了批改。正确的没改错,错误的也抓出来了。
这点足以证明它确实有视觉理解能力——如果只是简单的OCR,是没法理解这些带图题目的。
为了进一步确认,又给它一个错题。
这道题也是典型的视觉题,有两条虚线,试卷上确实做错了。看看它能不能找出来。
下面是DeepSeek的答案。
成功找出了三个错题,并进行了解析。
但第十题指出错误后,又给出一个错误答案,这确实有些不应该。
第10题(选择题):学生选了C(140),正确选项是B(139)。
解析:舞蹈队原平均身高是140.2 cm,红红加入后,平均身高降到了139 cm(虚线b的位置)。
说明红红的身高必须很矮,拉低了总平均分。
如果新平均身高是139 cm,红红的身高极大概率就是139 cm(或者低于139,但在给定选项里B最合适)。
它识别出了原平均身高和后来的平均身高,但逻辑判断出现了偏差。
身高从140.2拉到139,红红的身高肯定低于139。如果等于或高于139,均值不可能被拉到139。
所以这道题应该选A。
这一点,豆包能轻松答对。
而且豆包的速度非常快。
对图片识别的两大需求——认人识物和批改作业——目前来看,DeepSeek这两项都做得不太理想。
为了让测试更丰富,再加测一项:看时钟。
它的答案是6:00:50,这个绝对错的。
让它再确认一次。
它坚持无误,精确到秒:6:00:50。
也拿豆包试了试。
豆包说是6:05:50,不算特别准,但已经很接近了。按人类的视角,这个时间应该接近6:04:50。
再加测一题。
给了这张图,然后问:黄色坦克向右开两枪会怎么样?
DeepSeek的回答如下。
下面是豆包的答案。
这道题怎么评价?按经典游戏的设定,豆包是对的;但按截图的实际画面来看,DeepSeek反而是对的。
能答对这个题目,说明DeepSeek确实有点本事——因为它和常规地图不一样,能识别出这么细微的差别,确实很厉害。
但正当要夸奖它的时候——
它改口了。
由此可以确定:它没有主见。另一个可能性是,第一个答案也是随便猜的。
又追问了一把。
它完全没意识到问题的关键所在。
突然发现,这个问题其实很有代表性。
问DeepSeek、豆包、GPT5.5,它们都说要第三枪才能干掉老鹰。很明显,它们识别出这是坦克大战,就按标准答案套进了题目。
这个问题,只有Opus4.8能反思出关键。
这才是文本推理的王者吧?
扯远了。说回DeepSeek。
其实还是挺喜欢DeepSeek的,但识图这个功能,确实有点……儿戏。