DALL·E 2图像生成揭秘:自创语言暴露AI可解释性短板
DALL·E-2生成的图像中那些看似无意义的字符,是否构成了其内部的一种编码语言?这或许揭示了模型处理信息的一种独特方式。
尽管DALL·E系列在文本到图像的生成上表现出色,但让其准确渲染可读文本一直是公认的挑战。例如,输入“两个农民在谈论蔬菜,有字幕”的提示,你可能会得到这样的结果:
图像中的文字难以辨识。这并非新问题,早期研究已指出其文本生成的模糊性。然而,新的洞察表明,这些输出可能具有潜在的结构性意义。
来自德克萨斯大学奥斯汀分校的研究者Giannis Daras与Alexandros G. Dimakis教授发现,DALL·E-2可能内嵌了一套“隐式词典”。模型从这套词典中提取并组合元素,生成对人类而言晦涩、但对模型自身具备语义的文本提示。
例如,在DALL·E-2的体系中,“Apoploe vesrreaitais”可能映射“鸟类”概念,而“Contarra ccetnxniams luryca tanniounons”则可能指代“昆虫或害虫”。输入“Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons”这一串字符,模型生成的图像恰好是“鸟在啄食虫子”。
这是否意味着模型演化出了一套内部表征系统?
1. DALL·E-2 的秘密语言
研究者采用了一种逆向工程的方法来解码这套词汇。要定位“蔬菜”对应的隐式词汇,可以输入如“一本印有‘蔬菜’字样的书”或“两个正在讨论蔬菜并配有字幕的农民”等提示。模型生成的图像中出现的非常规字符串,便是其内部对“蔬菜”的编码。
在前述农民图像中,出现的字符串是“A vcopinitegoos Vicootes, Apoploe vesrreaitais”。随后,将这些字符串作为新提示输入模型进行验证。下图左侧是输入“vicootes”的结果,右侧是输入“apoploe vesrreaitais”的结果:
对应关系由此显现:“vicootes”触发蔬菜图像,而“apoploe vesrreaitais”触发鸟类图像——尽管这些鸟的形象颇具戏剧性,仿佛在审视农田。
另一个例证:输入“两只鲸鱼在讨论食物,带字幕”,DALL·E-2生成了左侧图像,文字为“Wa ch zod ahaakes rea”。人类无法解读,但模型自身能处理。将这段字符串作为新提示输入,生成的图像(右侧)是一桌海鲜。
这些发现迅速在社区引发了深度探讨:
“令人震惊。能否引导它使用标准语言输出?例如‘两只鲸鱼在讨论食物,英文字幕’。”
“出色的研究!这让我联想到训练某些GAN时,它们也会生成类似新造词。部分词形似英语,部分则不然。模型会为这些词赋予有意义的表征。”
“提出一点质疑。如果农民谈论的是‘Apoploe vesrreaitais’,而‘Apoploe vesrreaitais的3D渲染图’或‘Apoploe vesrreaitais线条画’生成的是昆虫(或广义‘飞行物’),那么农民更可能在谈论昆虫而非鸟类。”
“我对‘带字幕的农民’图像中文字与推断词义之间的强关联性持保留态度。该案例的筛选过程不透明,且存在矛盾:若假设成立,‘Apoploe vesrreaitais’应对应‘蔬菜’,但实际却对应‘鸟’。此外,我们看到的是‘vicootes’的输出,而非‘vicootess’。这显得不够严谨。”
“惊人的发现!我推测,由于CLIP未在纯文本任务上专门训练,它没有动力去‘避免’将无意义字符串与概念关联(这与使用传统语言模型的Imagen不同)。”
“因此,它必须从包含文字的图像中学习语言表征。但由于训练数据中此类图像有限,它在观测到的文字之间进行了某种不完整的插值。输出对人类虽是乱码,但这些乱码仍指向特定的数据索引。”
“其语言能力源于CLIP,因此问题很可能出在该模型上。”
“我的理解是,它仅在图像数据上训练,对吗?它使用文本来编码图像,但从未直接‘阅读’文本描述,除非图像中本身包含文字。”
“任何被索引到文本描述的图像文本(或其插值结果)都不会是完全随机的乱码,这合乎逻辑。有趣的是它如何索引语言概念本身,以及混合这些概念的能力。这与人类使用语言的方式有相似之处。”
2. 剥其机理
研究者对DALL·E-2的这套词汇系统进行了更深入的机制分析。
词汇组合性
首先检验其组合能力。已知“Apoploe vesrreaitais”指鸟类,“Contarra ccetnxniams luryca tanniounons”指害虫。DALL·E-2能否将二者组合成一个连贯的语义指令?
如下图所示,输入“Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons”,模型确实生成了鸟类捕食昆虫的图像。然而,这种组合关系的稳定性并非百分百,输出一致性有待提升。
风格迁移
DALL·E-2能够根据提示中的风格描述,生成对应概念的视觉化结果。我们测试“Apoploe vesrreaitais”这一词汇表征的概念,能否在不同风格上下文(如写实照片或线条艺术)中保持一致。
下图显示,相同提示有时会生成飞行昆虫而非鸟类。但无论如何,“飞行物”这一核心视觉概念在不同风格下得到了维持。
文本与生成图像的一致性
回顾农民与鸟的案例。原始提示是“两个农民在谈论蔬菜,有字幕”,结果图像中同时出现了蔬菜和鸟。农民谈论鸟类是合理的,这引出一个关键问题:DALL·E-2的文本输出是否与文本条件及生成的图像在语义上对齐?
实验表明,这些无意义字符串翻译成的视觉概念,有时与生成该字符串的原始标题意图一致。简言之,存在一种因果一致性。例如,“两只鲸鱼在谈论食物,有字幕”产生了带有“Wa ch zod ahaakes rea”文字的图像。将此字符串作为新提示输入,生成的是海鲜图像。结合“不同风格的鸟”案例,这些字符串确实承载了语义,并且有时与触发它的原始条件相呼应。
在鲸鱼案例中,图像文字“Wa ch zod ahaakes rea”与生成的图像、原始标题以及首幅图像的视觉内容,均存在可追溯的关联。
3. 安全性与可解释性的挑战
一种推测是,这些非人类词汇是现有语言中正确单词的拼写变体,但研究者在搜索中未找到支持证据,因此其起源仍不明确。
初步实验还显示,某些词汇的语义一致性较弱。例如,提示“Contarra ccetnxniams luryca tanniounons”约半数情况生成昆虫或害虫图像,其余则生成各类动物。而短语“Apoploe vesrreaitais”的一致性则强得多,能以多种组合方式生成语义稳定的图像。要全面评估更多提示语的鲁棒性,仍需大量测试。
研究者指出,即使概率很低,一个系统表现出不可预测性,对于某些关键应用场景而言仍是重大隐患。另一个值得探究的问题是,使用语言模型而非CLIP进行训练的Imagen,是否也存在类似的隐藏词汇表征?
无论如何,生成图像中出现的这些“荒谬提示”挑战了我们对大规模生成模型的现有理解。显然,要透彻理解这些现象并构建与人类意图对齐、行为稳健的文生图模型,仍需大量的基础性研究工作。
更多技术细节请参阅原论文:
论文地址:https://giannisdaras.github.io/publications/Discovering_the_Secret_Language_of_Dalle.pdf
参考链接:
https://twitter.com/giannis_daras/status/1531693111755149312
https://www.reddit.com/r/MachineLearning/comments/v1zzh8/d_dalle_2_has_its_own_secret_language/

















