Gary Marcus深度解析：文本生成图像系统为何远未达到AGI水平

2026-05-15阅读 0热度 0

DALL

AI 作画很牛，但它并不理解图像背后的世界。

自从 DALL-E 2 惊艳亮相，一个观点便开始流行：能够绘制逼真图像的 AI，无疑是迈向通用人工智能（AGI）的关键一步。OpenAI 的 CEO Sam Altman 在发布 DALL-E 2 时那句“AGI is going to be wild”的宣言，更是被媒体广泛引用，用以渲染这类系统对于智能革命的重大意义。

然而，事情真有这么简单吗？对此，知名 AI 学者、以审慎看待 AI 进展著称的 Gary Marcus 就持保留态度。

他最近提出，评估 AGI 的进展，关键在于审视像 DALL-E、Imagen、Midjourney 和 Stable Diffusion 这样的系统，是否真的“理解”了我们所处的世界——这种理解，意味着能够基于知识进行推理并做出决策。

那么，要判断这些图像生成系统之于 AI（无论是狭义还是广义）的真正价值，不妨从以下三个核心问题入手：

图像合成系统能否生成高质量的图像？
它们能否将语言输入与它们产生的图像准确关联起来？
它们是否了解自己所呈现图像背后的那个真实世界？

AI 不懂语言与图像的关联

对于第一个问题，答案是肯定的。区别或许只在于，经过专业训练的人类艺术家，能更娴熟地运用这些工具，产出更具艺术性的作品。

但到了第二个问题，答案就不那么确定了。在某些特定的、符合常规逻辑的语言描述上，这些系统确实表现不俗。比如，让 DALL-E 2 生成一张“骑着马的宇航员”的图片，它就能交出令人满意的答卷：

Gary Marcus深度解析：文本生成图像系统为何远未达到AGI水平

AI 不懂语言与图像的关联

相关阅读

最新教程

最新资讯