DALL·E 2图像生成揭秘：自创语言暴露AI可解释性短板

2026-05-15阅读 0热度 0

DALL·E

DALL·E-2生成的图像中那些看似无意义的字符，是否构成了其内部的一种编码语言？这或许揭示了模型处理信息的一种独特方式。

尽管DALL·E系列在文本到图像的生成上表现出色，但让其准确渲染可读文本一直是公认的挑战。例如，输入“两个农民在谈论蔬菜，有字幕”的提示，你可能会得到这样的结果：

图像中的文字难以辨识。这并非新问题，早期研究已指出其文本生成的模糊性。然而，新的洞察表明，这些输出可能具有潜在的结构性意义。

来自德克萨斯大学奥斯汀分校的研究者Giannis Daras与Alexandros G. Dimakis教授发现，DALL·E-2可能内嵌了一套“隐式词典”。模型从这套词典中提取并组合元素，生成对人类而言晦涩、但对模型自身具备语义的文本提示。

例如，在DALL·E-2的体系中，“Apoploe vesrreaitais”可能映射“鸟类”概念，而“Contarra ccetnxniams luryca tanniounons”则可能指代“昆虫或害虫”。输入“Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons”这一串字符，模型生成的图像恰好是“鸟在啄食虫子”。

这是否意味着模型演化出了一套内部表征系统？

1. DALL·E-2 的秘密语言

研究者采用了一种逆向工程的方法来解码这套词汇。要定位“蔬菜”对应的隐式词汇，可以输入如“一本印有‘蔬菜’字样的书”或“两个正在讨论蔬菜并配有字幕的农民”等提示。模型生成的图像中出现的非常规字符串，便是其内部对“蔬菜”的编码。

在前述农民图像中，出现的字符串是“A vcopinitegoos Vicootes, Apoploe vesrreaitais”。随后，将这些字符串作为新提示输入模型进行验证。下图左侧是输入“vicootes”的结果，右侧是输入“apoploe vesrreaitais”的结果：

对应关系由此显现：“vicootes”触发蔬菜图像，而“apoploe vesrreaitais”触发鸟类图像——尽管这些鸟的形象颇具戏剧性，仿佛在审视农田。

另一个例证：输入“两只鲸鱼在讨论食物，带字幕”，DALL·E-2生成了左侧图像，文字为“Wa ch zod ahaakes rea”。人类无法解读，但模型自身能处理。将这段字符串作为新提示输入，生成的图像（右侧）是一桌海鲜。

这些发现迅速在社区引发了深度探讨：

“令人震惊。能否引导它使用标准语言输出？例如‘两只鲸鱼在讨论食物，英文字幕’。”

“出色的研究！这让我联想到训练某些GAN时，它们也会生成类似新造词。部分词形似英语，部分则不然。模型会为这些词赋予有意义的表征。”

“提出一点质疑。如果农民谈论的是‘Apoploe vesrreaitais’，而‘Apoploe vesrreaitais的3D渲染图’或‘Apoploe vesrreaitais线条画’生成的是昆虫（或广义‘飞行物’），那么农民更可能在谈论昆虫而非鸟类。”

“我对‘带字幕的农民’图像中文字与推断词义之间的强关联性持保留态度。该案例的筛选过程不透明，且存在矛盾：若假设成立，‘Apoploe vesrreaitais’应对应‘蔬菜’，但实际却对应‘鸟’。此外，我们看到的是‘vicootes’的输出，而非‘vicootess’。这显得不够严谨。”

“惊人的发现！我推测，由于CLIP未在纯文本任务上专门训练，它没有动力去‘避免’将无意义字符串与概念关联（这与使用传统语言模型的Imagen不同）。”

“因此，它必须从包含文字的图像中学习语言表征。但由于训练数据中此类图像有限，它在观测到的文字之间进行了某种不完整的插值。输出对人类虽是乱码，但这些乱码仍指向特定的数据索引。”

“其语言能力源于CLIP，因此问题很可能出在该模型上。”

“我的理解是，它仅在图像数据上训练，对吗？它使用文本来编码图像，但从未直接‘阅读’文本描述，除非图像中本身包含文字。”

“任何被索引到文本描述的图像文本（或其插值结果）都不会是完全随机的乱码，这合乎逻辑。有趣的是它如何索引语言概念本身，以及混合这些概念的能力。这与人类使用语言的方式有相似之处。”

2. 剥其机理

研究者对DALL·E-2的这套词汇系统进行了更深入的机制分析。

词汇组合性

首先检验其组合能力。已知“Apoploe vesrreaitais”指鸟类，“Contarra ccetnxniams luryca tanniounons”指害虫。DALL·E-2能否将二者组合成一个连贯的语义指令？

如下图所示，输入“Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons”，模型确实生成了鸟类捕食昆虫的图像。然而，这种组合关系的稳定性并非百分百，输出一致性有待提升。

风格迁移

DALL·E-2能够根据提示中的风格描述，生成对应概念的视觉化结果。我们测试“Apoploe vesrreaitais”这一词汇表征的概念，能否在不同风格上下文（如写实照片或线条艺术）中保持一致。

下图显示，相同提示有时会生成飞行昆虫而非鸟类。但无论如何，“飞行物”这一核心视觉概念在不同风格下得到了维持。

文本与生成图像的一致性

回顾农民与鸟的案例。原始提示是“两个农民在谈论蔬菜，有字幕”，结果图像中同时出现了蔬菜和鸟。农民谈论鸟类是合理的，这引出一个关键问题：DALL·E-2的文本输出是否与文本条件及生成的图像在语义上对齐？

实验表明，这些无意义字符串翻译成的视觉概念，有时与生成该字符串的原始标题意图一致。简言之，存在一种因果一致性。例如，“两只鲸鱼在谈论食物，有字幕”产生了带有“Wa ch zod ahaakes rea”文字的图像。将此字符串作为新提示输入，生成的是海鲜图像。结合“不同风格的鸟”案例，这些字符串确实承载了语义，并且有时与触发它的原始条件相呼应。

在鲸鱼案例中，图像文字“Wa ch zod ahaakes rea”与生成的图像、原始标题以及首幅图像的视觉内容，均存在可追溯的关联。

3. 安全性与可解释性的挑战

一种推测是，这些非人类词汇是现有语言中正确单词的拼写变体，但研究者在搜索中未找到支持证据，因此其起源仍不明确。

初步实验还显示，某些词汇的语义一致性较弱。例如，提示“Contarra ccetnxniams luryca tanniounons”约半数情况生成昆虫或害虫图像，其余则生成各类动物。而短语“Apoploe vesrreaitais”的一致性则强得多，能以多种组合方式生成语义稳定的图像。要全面评估更多提示语的鲁棒性，仍需大量测试。

研究者指出，即使概率很低，一个系统表现出不可预测性，对于某些关键应用场景而言仍是重大隐患。另一个值得探究的问题是，使用语言模型而非CLIP进行训练的Imagen，是否也存在类似的隐藏词汇表征？

无论如何，生成图像中出现的这些“荒谬提示”挑战了我们对大规模生成模型的现有理解。显然，要透彻理解这些现象并构建与人类意图对齐、行为稳健的文生图模型，仍需大量的基础性研究工作。

更多技术细节请参阅原论文：

论文地址：https://giannisdaras.github.io/publications/Discovering_the_Secret_Language_of_Dalle.pdf

参考链接：

https://twitter.com/giannis_daras/status/1531693111755149312

https://www.reddit.com/r/MachineLearning/comments/v1zzh8/d_dalle_2_has_its_own_secret_language/