纽约大学AI想象力基准测试：权威测评与创新算法深度解析

2026-05-14阅读 0热度 0

如何检验一台计算机是否具备真正的创造性思维？纽约大学与德州大学奥斯汀分校的研究团队近期公布了一项突破性成果——他们构建了一个名为CREATE的创造力评估基准。这项研究（预印本arXiv:2603.09970v1）为量化评估人工智能的联想与创造性思维能力提供了全新框架。

该团队由纽约大学的Manya Wadhwa、Tiasa Singha Roy、Greg Durrett以及德州大学奥斯汀分校的Harvey Lederman和Junyi Jessy Li组成。他们致力于解决一个核心问题：如何设计一个测试，能有效衡量AI系统产生新颖、有价值联想的能力，而非仅仅复现训练数据中的既有模式？

传统测试的局限与CREATE的诞生

传统的创造力测试，如“替代用途任务”或“远程联想测试”，对现代大型语言模型而言已缺乏挑战性。这些任务可能早已存在于模型的训练数据中，导致测试如同开卷考试，无法区分记忆与真正的创造。CREATE基准的革新之处在于，它要求AI在一个庞大的知识网络（如维基百科数据图）中，自主发现并论证两个实体之间富有洞见的连接路径。这类似于要求系统证明演员Dakota Johnson与科幻电影领域存在关联：路径可能是通过其主演影片的搭档Chris Evans（曾出演《美国队长》），或是通过其继父Antonio Banderas（曾为《怪物史莱克2》配音）。

多层次的创造性思维挑战

CREATE任务要求模型进行多层次的认知操作。首先，它需要在海量知识中检索潜在的连接路径。其次，它必须评估这些路径的“创造性价值”——确保连接既符合事实逻辑，又具备足够的新颖性与趣味性。最后，系统需生成一组多样化的答案，避免陷入重复或平庸的联想模式。为系统化评估，研究团队构建了一个包含931个查询的数据集，覆盖人物、概念、化学物质等多个领域，每个查询都要求模型找出起点与终点之间多条独特且有意义的连接。

巧妙的评估体系：特异性与多样性

CREATE采用了一套精密的评估体系，核心在于平衡两个维度：路径的“特异性”与答案集的“多样性”。特异性衡量单条路径的独到与严谨程度，而多样性则确保整体回答不落窠臼。研究团队进而提出了“创造性效用”这一综合指标，它模拟了用户的浏览耐心——系统若能持续提供高质量且不重复的创意连接，则得分更高。这引导模型像一位知识渊博的向导，能根据兴趣层层递进地展示新颖关联。

测试结果与意外发现

团队测试了包括GPT、Claude、Gemini系列在内的前沿模型。结果显示，更强大的模型确实展现出更高的创造性效用。然而，一个关键发现是：那些专门进行“思维链”深度推理的模型，并未在此类开放性创造任务中表现出显著优势。即便赋予其更长的“思考”时间或计算资源，性能提升也有限。这表明，当前基于概率预测的模型架构，其创造性可能受限于固有的模式生成机制，而非简单的计算量。

创造性的模式与核心挑战

分析模型输出的高质量路径，研究者发现了一些模式。真正具有创造性的连接往往能横跨不同知识域，例如将娱乐界人物与学术成就相联系。研究同时揭示了AI创造力面临的一个根本性权衡：追求更高新颖性的模型，其生成路径的事实准确性可能下降；而过于保守、严格锚定事实的模型，则难以产生突破性联想。这指向了未来发展的核心挑战——如何让AI在保持可靠性的同时，安全地拓展想象的边界。

研究的深远意义

CREATE基准的建立具有重要的实用价值与理论意义。随着AI越来越多地介入需创造性思维的任务（如辅助研究、概念设计、内容创作），拥有一个可靠的评估工具至关重要。它为标准化的能力追踪与比较提供了可能。更深层地，这项研究提示，实现类人的创造力或许不能仅依赖扩大模型规模或数据量，而可能需要引入全新的认知架构，融合直觉、类比与跨领域知识迁移等机制。

尽管当前顶尖AI已在CREATE测试中展示了初步的创造性联想能力，但与人类灵活、深邃的想象力相比仍有差距。这既是挑战，也指明了前进方向。CREATE基准有望激发更多研究，探索如何让机器真正理解并生成“意料之外，情理之中”的妙想。

Q&A

Q1：CREATE基准测试是什么？

A：CREATE是由纽约大学和德州大学奥斯汀分校联合开发的AI创造力评估基准。它通过要求AI在知识图谱中寻找并论证两个实体间新颖、合理的连接路径，来测试其联想与创造性思维能力，有效避免了传统测试中模型可能“记忆答案”的问题。

Q2：为什么现有的创造力测试不适合AI？

A：诸如“砖块的用途”等经典测试题目可能已包含在AI的训练数据中，导致测试无法区分模型是在“回忆”还是在“创造”。CREATE基准基于庞大的真实世界知识网络构建动态查询，极大降低了被“背诵答案”的可能性，更能真实反映模型的创造性水平。

Q3：哪些AI模型在CREATE测试中表现最好？

A：测试表明，像GPT-4、Gemini等最先进的大型语言模型表现最佳。但有趣的是，专门优化了“思维链”推理能力的模型并未显示出压倒性优势。这表明，解决此类开放式的创造性问题，可能不仅需要深度的逻辑推理，更需要一种跨领域的、跳跃式的联想能力。