首个3D建模AI代码评测：谷歌DeepMind平台结果惊人

2026-06-06阅读 0热度 0

DeepMind

这项由谷歌DeepMind、谷歌研究院与南加州大学联合推进的研究，于2026年5月31日发表，论文编号arXiv:2606.01057v1。希望深入钻研的读者可直接通过该编号在arXiv平台检索完整论文。

你或许留意过，游戏与电影中那些生动逼真的三维场景，很大程度上依赖编程实现。传统3D建模需要设计师手动“捏”出模型，既耗时又考验艺术审美与技术功底。如今，让AI直接写代码生成模型听上去像科幻，但正逐步落地。一个关键问题始终悬而未决：这些AI的实际表现究竟如何？直到近期，一个专为此打造的“考场”才给出了详尽答案。

一、当AI遇上3D建模：一次意义深远的交叉

每当你畅玩一款精美的电子游戏，或欣赏电影中令人惊叹的特效场景，背后都有大量三维模型在支撑。这些模型并非凭空出现——专业设计师需花费数小时、数天甚至更久，使用专门软件一点一点“捏”出来。这一过程不仅耗费大量精力，还要求设计师同时精通艺术审美与技术编程，准入门槛极高。

然而，随着人工智能技术的迅速演进，一种全新的可能性浮现：让AI直接编写代码来生成三维模型。这种方式被称为“程序化三维建模”（Procedural 3D Modeling），其核心理念是用一段可执行的程序代码描述三维物体的构造方式，而非手动拖拽鼠标、调整参数。这样生成的模型不仅支持精确修改，还能被各类专业软件直接使用，甚至可随机产出无数风格相近但细节不同的变体——这是传统AI图像生成技术无法胜任的。

研究团队注意到，业界已有不少人在探索让AI驱动三维建模软件。例如，知名AI公司Anthropic宣布让旗下模型Claude直接操控Blender的计划，各种基于模型上下文协议的工具也层出不穷。但问题在于，始终缺少一个公认、严格的评测标准来衡量这些AI的真实水平。这好比举办了一场烹饪大赛，却没有裁判和评分标准，谁也说不清哪道菜更胜一筹。

正是为了填补这一空白，研究团队推出3DCodeBench——一个专用于评测AI程序化三维生成能力的基准测试平台。同时，他们还建立了3DCodeArena，一个让真实用户通过投票比较不同AI生成结果的公开平台。这两个工具构成了当前该领域最全面的评测体系。

二、什么是程序化三维建模？为何它与众不同

在深入解读评测结果之前，理解“程序化三维建模”这一概念至关重要。

大多数人熟悉的AI图像生成，比如用文字描述就能得到一张图片，产出的是“照片”即像素集合。这种图片视觉效果不错，但它不是真正的三维物体：无法嵌入游戏引擎，无法从任意角度查看，也无法精确修改某个零件的尺寸。

程序化三维建模则迥然不同。研究团队使用的平台是Blender 5.0，一款专业的开源三维软件。在Blender中，你可以用Python代码精确描述物体的每一根骨骼、每一块肌肉、每一片叶子的排列方式。当AI写出这样一段代码，Blender就能“翻译”并生成真实的三维网格模型——可从任意角度旋转查看，可导入游戏，可3D打印，也可随时通过修改代码来调整细节。

用一个生活化的比喻来理解：普通AI图像生成像给你一张房子的照片，而程序化三维建模则像提供一份建筑图纸加上施工说明——你不仅能看到房子外观，还能按图纸真正将其建造出来，甚至随时修改“把二楼改成三楼”。

这种能力在游戏开发、工业设计、机器人训练仿真等领域具有巨大价值。但要让AI实现它，需要同时掌握三件事：理解用户意图、掌握Blender的具体API、具备足够的三维空间几何推理能力。这三者叠加，对AI而言是不小的挑战。

三、26000个测试案例的来源：一条“流水线”背后的故事

要评测AI的能力，首先得有高质量的测试题目。研究团队为此投入大量精力，构建了一个包含26000个样本的数据集。

这些数据来源于名为Infinigen的开源程序化场景生成系统。该系统内部包含大量用代码写成的自然物体“工厂”——每种物体（如一棵树、一只螃蟹、一朵花）都有对应的程序代码，可按照随机参数生成无数个变体。研究团队的工作，是将这些复杂的“工厂代码”转换成独立可执行、简洁的Blender Python脚本，并为每个脚本配上文字描述和参考图片。

但转换过程绝非简单的复制粘贴，因为原始Infinigen代码结构极其复杂，充满嵌套调用和依赖关系，直接拿来根本无法运行。研究团队设计了一套“智能流水线”来完成这项工作，其中包含若干专门的AI工具分工协作。

代码简化器负责将冗长、嵌套的原始代码整理成干净独立的脚本，同时严格保证生成的三维形状不变样。模拟器则在沙盒环境中实际运行生成的代码，检查是否有报错，并提取网格数据。视觉评审员是一个视觉语言模型，它会将生成物体的多角度渲染图与原始参考图进行比较，发现视觉差异并反馈给前面的步骤。网格分析器则专门检查三维模型本身的质量，如是否存在无效几何体、非流形面或顶点数量异常等问题。

同时，系统还维护着一个“经验库”，持续积累已成功处理的类别信息、常见错误的修复策略、Blender 5.0的API变更记录，以及如何将各个独立零件拼装成完整物体的模板。随着处理的物体越来越多，经验库逐渐变得越来越聪明。

即使有了这套自动化流水线，研究团队也并未完全信任机器的判断。每一个最终进入数据集的样本，都必须经过人工审核：检查代码能否正常执行，文字描述是否准确，渲染图是否与参考图吻合。只有通过这道关卡的数据才能进入最终数据集。

最终，这套体系产出了涵盖212个物体类别的评测集，以及完整的约26000个“文字提示/参考图—代码—三维模型”三元组数据集，供未来的研究者进行模型训练使用。这212个类别涵盖范围极广——从自然界的动植物（鸟类、螃蟹、蜻蜓、仙人掌、龙舌兰）到家具（床、书柜、厨房橱柜），再到建筑构件，几乎覆盖了程序化建模的主要应用场景。

四、代码的复杂度远超想象

研究团队在整理数据时发现，这些测试案例的难度远超现有其他基准测试。

数据集中每段脚本的平均代码行数为531行，中位数为387行。对于复杂生物（如鸟类、螃蟹）或精细的室内物件（如树木、橱柜），代码长度甚至超过1000行。每段代码的文件大小平均为20.5KB，中位数14.9KB，分布呈现明显的“长尾”特征——大多数物体代码不算太长，但少数复杂物体的代码体量惊人。

这与业界之前那些“简单版本”的三维代码基准测试形成了鲜明对比。有的基准测试只让AI用几何基本体（球、方块、圆柱）拼出简单形状，有的只考察在体素网格（类似乐高积木的方格结构）中搭建模型，难度与真实专业需求相去甚远。3DCodeBench要求AI具备真正的几何推理能力，而不仅仅是记住几条API调用命令。

五、如何打分：评测体系的设计思路

有了测试题目，还需要一套评分标准。研究团队设计了两套互补的评分机制，就像一场考试同时有客观题和主观题。

客观评分部分由一系列自动化指标构成。第一道门槛是代码能否正常执行——给AI一段文字描述，让它写Blender代码，如果代码在Blender里跑起来能生成一个有效的三维网格，就算“通过执行测试”，否则直接判为失败。这一指标被称为“可执行率”（Executability）。

通过执行测试的模型还要继续接受外观相似度评测。具体做法是把AI生成的模型从四个固定角度（45度、135度、225度、315度）拍成渲染图，然后用两种专业的图像相似度算法——SigLIP-2和DINOv3——与参考图进行比较。SigLIP-2更擅长捕捉语义层面的相似性（“这看起来像一条鱼”），DINOv3则更关注形状和结构层面的相似性（“轮廓和结构像不像”）。

除了外观，研究团队还直接比较三维几何结构。他们把AI生成的三维模型和标准参考模型各自采样8192个表面点，然后用“倒角距离”（Chamfer Distance）来衡量两个点云之间的差异——这个数值越小，说明模型形状越接近真实参考。另一套工具叫Uni3D，它能把三维模型、文字和图片都映射到同一个“语义空间”里进行跨模态比较，既能评估AI生成模型与参考模型在三维形状上的相似程度，也能评估AI生成模型与文字描述的匹配程度。

所有指标都以两种方式汇报：一种是“条件均值”，只统计成功生成模型的那些案例的平均分，衡量“成功的案例做得有多好”；另一种是“惩罚均值”，把失败案例计为零分后再取平均，衡量“整体表现到底如何”。这两种视角各有侧重，放在一起才能给出全面的评价。

主观评分部分则是3DCodeArena平台。研究团队把不同AI生成的模型两两配对，放到一个公开网站上展示，让真实用户在不知道是哪个AI生成的情况下，投票选择哪个模型更好看、更像真实物体。这种方式模仿了著名的LMArena的机制，用Bradley-Terry算法把投票结果转换成Elo分数，最终形成一个可靠的排行榜。截至论文写作时，平台已收集了约3100票。

六、12个顶尖AI的成绩单：谁是三维建模高手？

研究团队对12个当前最先进的视觉语言模型进行了系统评测，来自谷歌的Gemini系列（包括Gemini 3 Flash、Gemini 3.1 Flash Lite、Gemini 3.1 Pro、Gemini 3.5 Flash、Gemma 4 26B、Gemma 4 31B）、Anthropic的Claude系列（Claude Haiku 4.5、Claude Sonnet 4.6、Claude Opus 4.7），以及OpenAI的GPT系列（GPT-5.4 Mini、GPT-5.4、GPT-5.5）。值得一提的是，有两个模型——Gemini 2.5 Pro和GPT-5.4 Nano——因为在单次对话中代码执行成功率低于10%而被排除在主要评测之外。

从最重要的可执行率来看，差距相当明显。Claude Opus 4.7以91%的可执行率居首，GPT-5.5以90.6%紧随其后，GPT-5.4以86.6%排名第三。相比之下，Gemini 3.5 Flash只有46.4%，Gemini 3 Flash为48.1%，Gemma 4 26B为51.7%。这意味着Gemini的轻量级模型生成的代码有超过一半都无法在Blender里正常运行。

从人类偏好Elo排名来看，GPT-5.5以1163分高居榜首，Gemini 3.5 Flash以1119分位居第二，Gemini 3.1 Pro以1147分第三，GPT-5.4以1074分第四。Claude Opus 4.7得到1006分，Claude Sonnet 4.6得到1015分，两者成绩相近但明显落后于顶尖选手。表现最差的是Claude Haiku 4.5，仅得799分，以及Gemini 3.1 Flash Lite的877分。

研究团队还特别计算了每个模型的性价比。他们发现，Gemini 3.5 Flash每次查询只需约0.04美元，而GPT-5.5需要约0.32美元——前者的成本只有后者的八分之一，但Elo分数只低了约44分（1119对1163）。如果在Pareto前沿（最高性价比曲线）上追踪，四个最具性价比的节点有四个都是Gemini模型。

七、失败的原因与成功后的缺陷：两类核心问题

数据给出了排名，但更有价值的是搞清楚为什么会失败，以及成功执行后的模型质量又如何。

研究团队发现，绝大多数执行失败（约85%-90%）都源于同一类原因：AI写的代码使用了Blender 4.x版本的旧API，而测试环境是Blender 5.0，两者之间存在接口不兼容。举几个具体的例子：Blender 5.0里已经移除了BSDF材质节点中的“Specular”参数，有些模型还在用旧写法导致报错；`Mesh.use_auto_smooth`这个属性在5.0里也不存在了；`create_cone`函数的参数名也发生了变化。这些都是知识截止日期导致的问题——AI在训练时可能接触的是更老版本的Blender文档，所以不了解最新的API变更。

换句话说，大多数失败不是因为AI不会建模，而是因为AI“用了过时的施工规范”。这一发现既说明问题所在，也指出了改进方向：只要给AI提供最新的API文档或者让它从错误信息中学习修正，执行成功率就能大幅提升。

然而，即便代码能够正常运行，生成的三维模型也并不完美。从质性比较来看，AI生成的模型普遍存在两类视觉问题：一是几何部件之间“悬浮”或“断开”，就像把一只螃蟹的八条腿分别放在空中，彼此没有连接；二是过于简化，用几个浮动的基本几何体草草代替复杂的有机形态。Gemini 3.1 Pro倾向于产生第一类问题（部件断开），Claude Opus 4.7则更容易出现第二类问题（过度简化）。

这表明现有AI虽然能写出“语法正确”的代码，但在“语义正确”层面——真正理解一个物体是如何在三维空间里有机地构成整体——还有相当大的提升空间。

八、思考时间越长越好吗？多轮对话的效果如何？

研究团队还进行了一系列“变量控制实验”，探索什么因素会影响AI的表现。

关于“思考时间”（Thinking Budget），不同级别的模型表现出截然不同的规律。对于轻量级模型，增加思考时间效果显著：Gemini 3.1 Flash Lite从“最小”思考量到“最高”思考量，可执行率提升了约19个百分点。道理不难理解：额外的思考让模型有机会在输出代码之前，先在脑子里“排查”可能的API兼容问题，自我纠错。然而对于顶尖模型来说，这种提升几乎可以忽略不计——Claude Opus 4.7在最低思考量时就已经达到了极限水平，继续增加思考时间几乎没有帮助。这是因为强模型已经“记住”了正确的API，只需略微确认一下，不需要大量推理。这个发现提示我们：把高思考量分配给弱模型比给强模型更划算，在实际应用中，根据模型能力级别来配置思考资源，可以在节省大量成本的同时维持接近最优的效果。

关于“输入图片数量”，研究团队测试了给AI输入1到4张参考图片的效果差异。结论有些出人意料：增加参考图片的数量，对生成质量的提升几乎可以忽略。SigLIP-2相似度在1到4张图之间的变化幅度不超过0.012，统计上没有显著意义。Uni3D三维相似度略有提升，但依然在误差范围内。这意味着，哪怕只给一张参考图，AI提取到的有效信息已经接近饱和，多余的图片并没有带来额外的几何理解增量。

九、给AI看执行错误日志，效果惊艳

单次对话的评测结果固然重要，但研究团队更感兴趣的是：如果让AI在失败后进行多轮修改，它能恢复多少？

多轮错误反馈实验的设计很直接：对于执行失败的案例，研究团队把Blender的错误日志（截取了前70%和后30%，总计不超过3000字符）连同之前的失败代码一起，发给同一个AI模型，让它尝试修正，最多允许三次机会。

结果相当令人振奋。所有11个模型、22个评测单元（文本到3D加图片到3D两个轨道）的平均可执行率，从单次对话的69.2%跃升至97.2%，提升了整整27个百分点。其中Claude Opus 4.7、GPT-5.4和GPT-5.5在两个轨道上都达到了100%的可执行率。不仅如此，生成质量也同步提升：SigLIP-2惩罚均值平均提升0.128，Chamfer距离平均下降0.079，Uni3D三维相似度平均提升0.069。

研究团队特别强调，这些质量提升数字是在固定的212个测试案例上计算的（失败案例贡献零分），因此完全排除了“因为成功案例变多导致分母变大”的干扰，真实反映了整体水平的提升。

背后的原因其实很简单：大多数失败都属于“局部可修复”的API错误——只要AI看到了具体的报错信息，就知道是哪行代码出了问题，改一改就好。这和人类程序员调试代码的经验高度一致：很多时候，看到报错比盲猜要有用得多。

十、给AI配上“智能编程助手”，更上一层楼吗？

研究团队还尝试了一种更进一步的方案：给每个AI配上它对应的“原生智能编程助手”工具，让AI在一定时间预算内完全自主地编写代码、运行测试、读取报错、修改代码、再次运行……循环往复直到成功或超时。

具体来说，Gemini系列用Gemini CLI，Claude系列用Claude Code，GPT系列用Codex CLI，每个实例的时间预算为600到900秒。AI会在沙盒目录里自主操作，研究团队只提供任务描述，其余完全交给AI自己决定。

结果是：这些智能助手工具确实进一步提升了可执行率，平均从71.6%提升至99.5%，三个模型达到了100%的执行率上限。然而，对于那些单次对话就能成功执行的案例，加了智能助手之后生成模型的质量几乎没有变化——SigLIP-2只变动了-0.010，Chamfer距离只变动了+0.001，Uni3D三维相似度只变动了-0.003，这些差异几乎都在统计误差范围之内。

这个发现揭示了一个值得深思的现象：自动化的“修修补补”能修复API报错，但无法让AI真正理解三维几何。一旦代码成功编译，模型的三维形状质量就基本定型了——智能助手并没有能力在后期“雕塑”出更精细的几何细节。这就好像一个工人能熟练地修好施工过程中的管道漏水，却没有设计师的能力重新规划整栋建筑的布局。

十一、视觉自我审查：让AI看自己的作品，有用吗？

研究团队还测试了一种更具创造性的改进路径：让AI查看自己生成模型的渲染图，与原始描述或参考图片比较，然后决定是否需要重写代码。

结果呈现出一个有趣的“任务不对称性”。在文字到3D的轨道上，视觉自我审查普遍有效，四个测试模型的SigLIP-2相似度平均提升了0.003到0.009，大多数模型的“改进次数”多于“变差次数”，比例从1.24到2.63不等，其中Gemma 4 26B表现最好，50次改进对应19次退步。

然而在图片到3D的轨道上，同样的模型却普遍变差了，SigLIP-2平均下降0.006到0.009，改进/退步比例下降到0.58到0.78。研究团队分析，这种“同一批模型、同一个方法、但在不同任务上结果相反”的现象，根本原因在于指标的天花板效应：图片到3D任务的SigLIP-2基准值已经在0.78到0.81之间，非常接近参考渲染图能达到的上限，此时任何轻微的几何改动都可能在渲染外观上引入噪声，被评分系统判定为变差。换句话说，不是AI改坏了，而是评分尺子在这个区间不够精细。

值得注意的是，模型能力越强，作为“自我审查者”越保守。Gemma 4 31B（较强模型）只对41%的案例说“需要修改”，而较弱的模型则激进得多，经常不必要地大幅重写代码，结果往往弄巧成拙。

十二、自动评分可以代替人工投票吗？

3DCodeArena的人工投票固然可靠，但每一票都需要真实用户花时间观察和判断，规模化代价高昂。研究团队因此研究了一个关键问题：能不能用AI来代替人工投票？

他们用四个谷歌模型（Gemini 3.1 Pro、Gemini 3 Flash、Gemini 3.1 Flash Lite、Gemma 4 31B）对2508个真实投票案例进行了重新判断，每个模型分别以“看渲染图”和“看代码”两种模式工作，评估结果与人工投票进行比对。

看渲染图模式的表现还算令人满意：四个模型的总体准确率在62.5%到64.7%之间，如果只看双方都做出明确选择（而非选择“平局”）的案例，准确率进一步提升至72.6%到74.4%。其中Gemini 3.1 Pro在剔除“弃权”案例后准确率最高（77.1%），Cohen's kappa系数（衡量超越随机概率的一致性）达到0.542，属于“中等偏高”的一致性水平。

看代码模式的表现则明显逊色：准确率下降到51.7%到56.9%，kappa系数只有0.249到0.348，属于“一般”到“中等”的一致性水平。这说明仅凭读代码无法可靠地预测生成三维模型的质量，渲染图依然是不可替代的评估媒介。

研究团队还发现，SigLIP-2视图相似度与人类偏好Elo的皮尔逊相关系数高达0.964，DINOv3的Spearman相关系数更是达到了0.972，两个指标都与人工偏好高度吻合。这意味着，在大多数情况下，用SigLIP-2和DINOv3作为自动化评估指标，能够相当准确地代表人类的审美判断，无需每次都进行昂贵的人工投票。

归根结底，3DCodeBench做的这件事，是给“AI会不会写三维建模代码”这个问题提供了一个真正科学的答案：会，但还不够好。当前最强的AI已经能让90%的代码在Blender里正常运行，但生成的模型往往在几何连贯性上存在明显缺陷，部件悬浮、比例失调、细节简化的问题普遍存在。更深层的问题在于，现有AI缺乏对三维空间物理规律的真实理解，写出的代码“语法正确但语义模糊”。

这项研究还揭示了一条清晰的改进路径：让AI在执行环境中得到真实反馈、进行迭代修正，是目前提升性能最有效的手段，远比增加思考时间或增加输入图片数量更有效。而要根本性地提升AI的三维推理能力，则需要大量高质量的程序化三维代码训练数据——这正是3DCodeBench的另一个重要价值所在：它所提供的26000个数据样本，为未来训练更懂三维空间的AI提供了一块坚实的基石。

对于关心AI发展走向的读者，一个有趣的思考题是：当AI能够流畅地将文字或图片转化为精确、可编辑的三维模型时，谁将是最大的受益者？是游戏开发者、建筑师、机器人工程师，还是我们每一个普通人？这个问题的答案，或许比技术本身更值得期待。

---

Q&A

Q1：3DCodeBench评测的是什么能力，和普通AI图像生成有什么区别？

A：3DCodeBench评测的是AI能否用Python代码在Blender软件里生成真正的三维模型，而不是生成一张好看的图片。普通AI图像生成产生的是像素图片，无法从任意角度旋转、无法导入游戏或3D打印；而程序化三维建模生成的是可执行的代码，编译后得到真实的三维网格，可以精确修改、从任意角度查看，并直接用于游戏开发、工业设计等专业场景。

Q2：为什么Gemini 2.5 Pro和GPT-5.4 Nano没有出现在排行榜里？

A：这两个模型在单次对话中代码执行成功率太低，Gemini 2.5 Pro只有7.1%，GPT-5.4 Nano只有6.1%。研究团队分析发现，它们的约85%失败案例都是因为使用了已被Blender 5.0废弃的旧版API命令，属于训练数据知识截止日期导致的问题，而非建模能力本身的缺陷。由于成功案例太少，统计数字不可靠，所以被排除在主要评测之外。

Q3：多轮错误反馈为什么能大幅提升AI的代码执行成功率？

A：因为大多数失败都属于“API不兼容”这种局部可修复的错误，比如某个函数参数名在Blender 5.0里改了，或者某个属性被移除了。当AI看到具体的报错信息（就像程序员看调试日志一样），就能精准定位问题所在，把那行代码修改掉。这和盲目重新生成代码完全不同，有了错误提示，修复成功率极高。研究数据显示，11个模型的平均可执行率从69.2%跃升至97.2%，说明这种“看错误日志改代码”的方法非常有效。