DeepSeek多模态AI开测:功能测评与新手使用指南

2026-05-17阅读 0热度 0
DeepSeek

今天一次小范围更新后,部分被灰度到的用户发现,首页悄然出现了“识图模式”的入口,下方还附有一行小字提示:图片理解能力内测中。

DeepSeek的视觉功能,这次是真的来了。

图片

消息的源头,是DeepSeek研究员陈小康在社交平台上发布的一条动态——

Now, we see you.?

图片

紧接着,另一位研究员陈德里也跟帖确认,V4的视觉模式已经启动灰度测试。

图片

看来,小鲸鱼在多模态能力版图上的最后一块关键拼图,即将就位。

图片

已经具备真实图像理解能力

回顾此前,用户上传图片时,模型主要扮演的是文字识别器的角色,核心能力集中在OCR层面。

图片

而根据此次灰度测试用户的反馈,情况已大不相同。从流出的截图可以看到,DeepSeek视觉测试版展现出了真正的图像理解能力。面对一张包含饮品的图片,它不仅准确识别出了物品和杯型等关键信息,更在经过约4秒的“思考”后,输出了完整、连贯的描述。

图片

关键在于,这张测试图并没有明显的文字信息。这足以说明,其工作模式已经超越了单纯的文字提取,迈向了真正的视觉内容理解。

V4,满血归来

此次释放信号的研究员背景,也颇值得玩味。其中一位陈小康,是DeepSeek多模态研究组的负责人,拥有北京大学博士学位。

他正是DeepSeek两个重量级多模态项目的核心作者:Janus系列统一多模态理解与生成模型,以及基于MoE架构的视觉语言模型DeepSeek-VL2。

图片

可以说,DeepSeek视觉能力的基石,正是由他所在的团队奠定。

另一位研究员陈德里,则主要负责语言模型、对齐机制、训练策略及模型泛化能力等核心方向。在过去两年DeepSeek发布的V2、V3乃至R1等重要迭代中,几乎都能看到他的贡献,这次的V4也不例外。

前有价格策略带来巨大市场冲击,如今视觉功能又接踵而至。不得不说,DeepSeek V4正在以一种“补全所有短板”的姿态,宣告其全面能力的回归。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策