DeepSeek多模态AI开测：功能测评与新手使用指南

2026-05-17阅读 0热度 0

DeepSeek

今天一次小范围更新后，部分被灰度到的用户发现，首页悄然出现了“识图模式”的入口，下方还附有一行小字提示：图片理解能力内测中。

DeepSeek的视觉功能，这次是真的来了。

消息的源头，是DeepSeek研究员陈小康在社交平台上发布的一条动态——

Now, we see you.

紧接着，另一位研究员陈德里也跟帖确认，V4的视觉模式已经启动灰度测试。

看来，小鲸鱼在多模态能力版图上的最后一块关键拼图，即将就位。

已经具备真实图像理解能力

回顾此前，用户上传图片时，模型主要扮演的是文字识别器的角色，核心能力集中在OCR层面。

而根据此次灰度测试用户的反馈，情况已大不相同。从流出的截图可以看到，DeepSeek视觉测试版展现出了真正的图像理解能力。面对一张包含饮品的图片，它不仅准确识别出了物品和杯型等关键信息，更在经过约4秒的“思考”后，输出了完整、连贯的描述。

关键在于，这张测试图并没有明显的文字信息。这足以说明，其工作模式已经超越了单纯的文字提取，迈向了真正的视觉内容理解。

此次释放信号的研究员背景，也颇值得玩味。其中一位陈小康，是DeepSeek多模态研究组的负责人，拥有北京大学博士学位。

他正是DeepSeek两个重量级多模态项目的核心作者：Janus系列统一多模态理解与生成模型，以及基于MoE架构的视觉语言模型DeepSeek-VL2。

可以说，DeepSeek视觉能力的基石，正是由他所在的团队奠定。

另一位研究员陈德里，则主要负责语言模型、对齐机制、训练策略及模型泛化能力等核心方向。在过去两年DeepSeek发布的V2、V3乃至R1等重要迭代中，几乎都能看到他的贡献，这次的V4也不例外。

前有价格策略带来巨大市场冲击，如今视觉功能又接踵而至。不得不说，DeepSeek V4正在以一种“补全所有短板”的姿态，宣告其全面能力的回归。

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。