Gary Marcus深度解析:文本生成图像系统为何远未达到AGI水平

2026-05-15阅读 0热度 0
DALL
AI 作画很牛,但它并不理解图像背后的世界。

自从 DALL-E 2 惊艳亮相,一个观点便开始流行:能够绘制逼真图像的 AI,无疑是迈向通用人工智能(AGI)的关键一步。OpenAI 的 CEO Sam Altman 在发布 DALL-E 2 时那句“AGI is going to be wild”的宣言,更是被媒体广泛引用,用以渲染这类系统对于智能革命的重大意义。

然而,事情真有这么简单吗?对此,知名 AI 学者、以审慎看待 AI 进展著称的 Gary Marcus 就持保留态度。

他最近提出,评估 AGI 的进展,关键在于审视像 DALL-E、Imagen、Midjourney 和 Stable Diffusion 这样的系统,是否真的“理解”了我们所处的世界——这种理解,意味着能够基于知识进行推理并做出决策。

那么,要判断这些图像生成系统之于 AI(无论是狭义还是广义)的真正价值,不妨从以下三个核心问题入手:

  1. 图像合成系统能否生成高质量的图像?

  2. 它们能否将语言输入与它们产生的图像准确关联起来?

  3. 它们是否了解自己所呈现图像背后的那个真实世界?

AI 不懂语言与图像的关联

对于第一个问题,答案是肯定的。区别或许只在于,经过专业训练的人类艺术家,能更娴熟地运用这些工具,产出更具艺术性的作品。

但到了第二个问题,答案就不那么确定了。在某些特定的、符合常规逻辑的语言描述上,这些系统确实表现不俗。比如,让 DALL-E 2 生成一张“骑着马的宇航员”的图片,它就能交出令人满意的答卷:

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策