2025 3D建模代码评测榜：DeepMind平台首测结果出人意料

2026-06-07阅读 0热度 0

DeepMind

2026年5月31日，谷歌DeepMind、谷歌研究院与南加州大学联合发表了一篇预印本论文（arXiv:2606.01057v1），系统评估了当代大语言模型在程序化三维建模任务上的表现。若想深入技术细节，可直接在arXiv搜索该编号获取完整论文。

一、AI遇上3D建模：一次关键的范式跃迁

电子游戏中的沉浸场景和电影特效背后的核心资产是什么？三维模型。每一个模型都需要专业设计师在Blender、Maya等工具中耗费数小时甚至数天手工雕琢。这不仅要求设计师具备扎实的美学功底，还需要掌握复杂的软件操作与编程逻辑，入门门槛极高。

人工智能的介入开辟了一条全新路径：让AI自主生成代码来构造三维模型。这种“程序化三维建模”（Procedural 3D Modeling）的核心，是用可执行的程序代码精确描述物体的几何构造，而非手动调整参数。生成的模型不仅可编辑、兼容专业工作流，还能随机生成大量风格一致但细节迥异的变体——这是传统AI图像生成无法实现的。

业界已有先行者。Anthropic宣称要让Claude直接操控Blender，基于模型上下文协议（MCP）的工具层出不穷。然而，缺乏统一的评测标准导致各AI的实际能力无法横向对比。正如一场没有裁判的厨艺大赛，无人知晓真正的冠军。

为此，研究团队构建了3DCodeBench——专门评测AI程序化三维生成能力的基准测试。同时配套推出3DCodeArena，一个公开投票平台，让真实用户通过比较不同AI的生成结果来给出偏好。两套系统组合，构成了目前该领域最全面的评估框架。

二、程序化三维建模：核心概念与独特价值

在分析评测结果之前，需要明确定义“程序化三维建模”的含义。

常见的AI图像生成器（如Stable Diffusion）输入“一只金毛犬”后输出像素图片。这些图片无法旋转、不能导入游戏引擎、也无法3D打印。它们只是二维像素矩阵，而非三维几何体。

程序化三维建模则截然不同。研究团队选用Blender 5.0——功能强大的开源三维软件。通过Python代码，AI可以精准描述物体每个部件的空间位置与连接关系。Blender解析代码后生成真实的三维网格模型，支持任意角度查看、导入游戏、3D打印，并可通过修改代码微调细节。

类比一下：普通AI图像生成给你一张房屋照片，程序化三维建模给你建筑蓝图加施工说明——不仅能看见外观，还能按图施工，甚至随时将二楼改为三楼。

这项能力在游戏开发、工业设计、机器人训练仿真等领域价值巨大。但AI要做到这一点，必须同时具备三项技能：准确理解用户指令（如“生成一只螃蟹”）、精通Blender的API接口、具备坚实的三维空间几何推理能力。三者叠加，挑战性极高。

三、26000个测试案例：流水线的幕后故事

高质量测试集是评测的基础。研究团队耗力打造了一个包含26000个样本的数据集。

数据源自Infinigen——一个开源程序化场景生成系统。该系统内含大量用代码编写的自然物体“工厂”，每种物体（树木、螃蟹、花朵等）对应一段可随机参数生成无数变体的程序。团队的任务是将这些复杂的“工厂代码”转化为独立执行、简洁的Blender Python脚本，并为每个脚本配文字描述与参考图片。

这一转换绝非简单复制粘贴。原始Infinigen代码嵌套深、依赖复杂，直接运行会报错。研究团队设计了一套“智能流水线”，配备多个专业AI工具协同工作。

代码简化器负责将冗长的原始代码整理成独立脚本，同时确保生成的三维形状不变。模拟器在沙盒中运行代码，检查错误并提取网格数据。视觉评审员（一个视觉语言模型）比对生成物体的多角度渲染图与参考图，发现差异立即反馈。网格分析器检查模型质量，如无效几何体、非流形面、顶点数量异常等。

系统还维护一个“经验库”，持续积累成功处理的类别信息、常见错误修复策略、Blender 5.0 API变更记录以及零件拼装模板。随着处理量增加，经验库会自我进化。

即使拥有自动化流水线，团队仍坚持人工审核。每个最终入集的样本必须通过：代码可执行、文字描述准确、渲染图与参考图吻合。只有通过这一关的数据才能进入最终数据集。

最终，这套体系产出了涵盖212个物体类别的评测集，以及约26000个“文本提示/参考图—代码—三维模型”三元组。212个类别覆盖自然动植物（鸟类、螃蟹、蜻蜓、仙人掌、龙舌兰）、家居（床、书柜、厨房橱柜）和建筑构件，基本覆盖程序化建模的主要应用场景。

四、代码复杂度：远超现有基准

整理数据时，团队发现这些测试案例的难度远超业界其他基准测试。

数据集中，每段脚本平均531行代码，中位数387行。鸟类、螃蟹等复杂生物或树木、橱柜等精细室内物件的代码长度常超1000行。文件大小平均20.5KB，中位数14.9KB，呈长尾分布——多数物体代码不长，但少数复杂物体的体量惊人。

这与之前的“简易版”三维代码基准形成鲜明对比。某些基准只要求AI用球体、方块、圆柱拼出简单形状，或仅在体素网格中搭建模型。其难度与真实专业需求差距巨大。3DCodeBench要求AI具备真正的几何推理能力，而非仅记住几条API调用命令。

五、评分体系：客观与主观双轨并行

有测试题还需评分标准。研究团队设计了两套互补的评分机制，类似同时考客观题和主观题。

客观评分由自动化指标构成。第一道门槛是代码能否正常运行：给出文字描述，AI写出Blender代码，若能在Blender中成功运行并生成有效三维网格则“通过执行测试”，否则为失败。该指标称为“可执行率”（Executability）。

通过执行测试的模型继续接受外观相似度评测。从四个固定角度（45°、135°、225°、315°）渲染生成模型，并用SigLIP-2和DINOv3两种图像相似度算法与参考图比较。SigLIP-2侧重语义相似度（“这看起来像一条鱼”），DINOv3聚焦形状结构相似度（“轮廓像不像”）。

除外观外，团队还直接比较三维几何结构。对AI生成模型与标准参考模型各采样8192个表面点，用倒角距离（Chamfer Distance）衡量点云差异——数值越小形状越接近。另一个工具Uni3D可将三维模型、文字和图片映射到同一语义空间，进行跨模态比较，既能评估生成模型与参考模型在三形状上的相似度，也能评估与文字描述的匹配度。

所有指标以两种方式汇报：条件均值（仅统计成功案例的平均分，衡量“成功案例质量”），惩罚均值（失败案例计零分后取平均，衡量“整体表现”）。两者结合给出全面评价。

主观评分由3DCodeArena平台执行。团队将不同AI生成模型两两配对，匿名展示给真实用户，让他们投票选出更好看、更逼真的模型。该机制模仿LMArena，用Bradley-Terry算法将投票转化为Elo分数，形成可靠排行榜。截至论文撰写，平台已收集约3100票。

六、12个顶尖AI的成绩单：谁是三维建模强者？

研究团队系统评测了12个当前最先进的视觉语言模型。阵容包括：谷歌的Gemini系列（Gemini 3 Flash、Gemini 3.1 Flash Lite、Gemini 3.1 Pro、Gemini 3.5 Flash、Gemma 4 26B、Gemma 4 31B），Anthropic的Claude系列（Haiku 4.5、Sonnet 4.6、Opus 4.7），以及OpenAI的GPT系列（GPT-5.4 Mini、GPT-5.4、GPT-5.5）。Gemini 2.5 Pro和GPT-5.4 Nano因单次代码执行成功率低于10%被排除出主要评测。

在可执行率方面，差异明显。Claude Opus 4.7以91%领先，GPT-5.5以90.6%紧随，GPT-5.4以86.6%排名第三。相比之下，Gemini 3.5 Flash仅46.4%，Gemini 3 Flash为48.1%，Gemma 4 26B为51.7%。Gemini轻量级模型生成的代码超过一半无法在Blender中运行。

人类偏好Elo排名方面，GPT-5.5以1163分高居榜首，Gemini 3.5 Flash以1119分第二，Gemini 3.1 Pro以1147分第三，GPT-5.4以1074分第四。Claude Opus 4.7得1006分，Claude Sonnet 4.6得1015分，两者相近但落后于领跑者。表现最差的是Claude Haiku 4.5（799分）和Gemini 3.1 Flash Lite（877分）。

团队还计算了性价比：Gemini 3.5 Flash每次查询约0.04美元，GPT-5.5约0.32美元——前者成本不足后者八分之一，但Elo分数仅低44分（1119 vs 1163）。在Pareto前沿上，四个最具性价比节点全部来自Gemini模型。

七、失败原因与成功缺陷：两类核心问题

排名之外，更有价值的是分析失败原因与成功执行后的质量问题。

团队发现，约85%-90%的执行失败源自同一原因：AI写的代码使用了Blender 4.x版本的旧API，而测试环境是Blender 5.0，存在接口不兼容。例如，Blender 5.0移除了BSDF材质节点的“Specular”参数，`Mesh.use_auto_smooth`属性也不复存在，`create_cone`函数参数名更改。根源在于AI的知识截止日期——训练时接触的可能是更老版本的Blender文档。

换言之，大多数失败并非AI不会建模，而是用了过时的“施工规范”。这一发现指向明确的改进方向：只要提供最新API文档或允许AI从错误信息中学习，执行成功率就能大幅提升。

即便代码可正常运行，生成模型也并非完美。质性比较揭示两类视觉缺陷：几何部件悬浮或断开（如螃蟹腿漂浮于空中），以及过度简化（用几个浮动几何体替代复杂有机形态）。Gemini 3.1 Pro易出现部件断开问题，Claude Opus 4.7则更容易过度简化。

这说明现有AI能写出“语法正确”的代码，但在“语义正确”层面——真正理解物体在三维空间中的有机构成——仍有很大提升空间。

八、思考时间与多轮对话：变量控制实验

团队进行了一系列变量控制实验，探索影响AI表现的关键因素。

关于思考时间（Thinking Budget），不同级别模型表现迥异。对轻量级模型，增加思考时间效果显著：Gemini 3.1 Flash Lite从最低到最高思考量，可执行率提升约19个百分点。额外思考让模型有机会在输出前排查API兼容问题。但对顶尖模型，提升几乎为零——Claude Opus 4.7在最低思考量时已达极限，继续增加无效。这是因为强模型已“记住”正确API，无需大量推理。实践启示：将高思考量分配给弱模型比分配给强模型划算，可根据模型级别配置资源以节省成本且维持近最优效果。

关于输入图片数量（1到4张参考图），结论出乎意料：增加图片数量对生成质量提升可忽略不计。SigLIP-2相似度在1到4张图间变化不超过0.012，无统计显著性；Uni3D三维相似度略有提升但仍在误差范围。这说明单张参考图已提供接近饱和的有效信息，额外图片带来的几何理解增量极小。

九、错误日志反馈：惊艳的效果

单次对话评测重要，但团队更关心多轮修复能力：让AI在失败后根据错误日志修改代码，能补救多少？

多轮错误反馈实验设计如下：对执行失败的案例，将Blender错误日志（截取前70%和后30%，总不超过3000字符）连同失败代码返回给同一AI模型，最多允许三次修正机会。

结果令人振奋。所有11个模型、22个评测单元（文本到3D和图片到3D两个轨道）的平均可执行率从单次对话的69.2%跃升至97.2%，提升27个百分点。Claude Opus 4.7、GPT-5.4和GPT-5.5在两个轨道都达100%可执行率。生成质量同步提升：SigLIP-2惩罚均值平均提升0.128，Chamfer距离平均下降0.079，Uni3D三维相似度平均提升0.069。

团队强调，这些质量提升基于固定212个测试案例计算（失败案例计零分），排除“成功案例增多导致分母变大”的干扰，真实反映整体水平提升。

原因很简单：大多数失败属于“局部可修复”的API错误。AI看到具体报错信息后能精准定位并修改代码，这与人类程序员调试经验一致——看到报错远比盲目猜测有效。

十、智能编程助手：能否更进一步？

团队尝试更激进的方案：为每个AI配置对应的“原生智能编程助手”工具，让AI在限时内完全自主编写代码、运行测试、读取报错、修改代码、再运行，直到成功或超时。

具体操作：Gemini系列用Gemini CLI，Claude系列用Claude Code，GPT系列用Codex CLI，每个实例时间预算600-900秒。AI自主在沙盒目录操作，团队仅提供任务描述。

结果：智能助手工具进一步提升了可执行率，平均从71.6%提升至99.5%，三个模型达100%上限。但那些单次对话已能成功执行的案例，加上智能助手后生成模型质量几乎不变——SigLIP-2变动-0.010，Chamfer距离变动+0.001，Uni3D变动-0.003，均在统计误差内。

这一发现揭示：自动化“修修补补”能修复API报错，但无法让AI真正理解三维几何。代码成功编译后模型形状质量基本定型——智能助手没有能力在后期“雕塑”更精细的几何细节。好比工人能修管道漏水，却无法重新规划建筑布局。

十一、视觉自我审查：AI审视自己的作品有用吗？

团队测试了一种更具创造性的路径：让AI查看自己生成模型的渲染图，与原始描述或参考图比较，然后决定是否重写代码。

结果呈现有趣的“任务不对称性”。在文本到3D轨道上，视觉自我审查普遍有效：四个测试模型SigLIP-2相似度平均提升0.003-0.009，多数模型“改进次数”多于“变差次数”，比例1.24-2.63。Gemma 4 26B表现最佳，50次改进对应19次退步。

但在图片到3D轨道上，同一模型普遍变差：SigLIP-2平均下降0.006-0.009，改进/退步比例降至0.58-0.78。团队分析认为，根本原因是指标天花板效应：图片到3D任务SigLIP-2基准值已在0.78-0.81之间，非常接近参考渲染图上限。此时任何轻微几何改动都可能在渲染外观上引入噪声，被评分系统判定为变差。并非AI改坏，而是评分量尺在此区间不够精细。

值得注意的是，模型能力越强，作为“自我审查者”越保守。Gemma 4 31B（较强模型）仅对41%的案例说“需要修改”，而较弱模型则激进得多，经常不必要地大幅重写代码，结果弄巧成拙。

十二、自动评分能否替代人工投票？

3DCodeArena的人工投票虽然可靠，但规模化成本高昂。团队探讨了用AI替代人工投票的可能性。

他们用四个谷歌模型（Gemini 3.1 Pro、Gemini 3 Flash、Gemini 3.1 Flash Lite、Gemma 4 31B）对2508个真实投票案例重新判断，每种模型分别以“看渲染图”和“看代码”两种模式工作，然后将结果与人工投票对比。

看渲染图模式表现令人满意：四个模型总体准确率62.5%-64.7%；若只看双方都做出明确选择（而非“平局”）的案例，准确率升至72.6%-74.4%。其中Gemini 3.1 Pro在剔除弃权案例后准确率最高（77.1%），Cohen's kappa系数达0.542，属“中等偏高”一致性。

看代码模式明显逊色：准确率降至51.7%-56.9%，kappa系数0.249-0.348，属“一般”到“中等”一致性。仅凭读代码无法可靠预测生成模型质量，渲染图仍是不可替代的评估媒介。

团队还发现，SigLIP-2视图相似度与人类偏好Elo的皮尔逊相关系数高达0.964，DINOv3的Spearman相关系数达0.972，两个指标都与人工偏好高度吻合。这意味着在大多数情况下，用SigLIP-2和DINOv3作为自动化评估指标可准确代表人类审美判断，无需每次都进行昂贵的人工投票。

归根结底，3DCodeBench为“AI能否编写三维建模代码”这个问题提供了科学答案：能，但还不够好。当前最强AI已让90%的代码在Blender中正常运行，但生成模型普遍存在几何连贯性缺陷——部件悬浮、比例失调、细节简化。更深层问题是现有AI缺乏对三维空间物理规律的真实理解，写出的代码“语法正确但语义模糊”。

这项研究还揭示了一条清晰的改进路径：让AI在执行环境中获得真实反馈并迭代修正，是目前提升性能最有效的手段，远比增加思考时间或图片数量有效。而要根本性提升AI的三维推理能力，需要大量高质量的程序化三维代码训练数据——这正是3DCodeBench的另一重要价值：提供的26000个数据样本为未来训练更懂三维空间的AI奠定了坚实基础。

对于关注AI发展的读者，一个有趣的问题浮出水面：当AI能流畅地将文字或图片转化为精确、可编辑的三维模型时，最大受益者是谁？游戏开发者、建筑师、机器人工程师，还是每一个普通人？这个问题的答案或许比技术本身更值得期待。

Q&A

Q1：3DCodeBench评测的是哪类能力？与普通AI图像生成有何不同？

A：3DCodeBench评测AI能否用Python代码在Blender中生成真正三维模型，而非输出一张好看图片。普通AI图像生成产生像素图片，无法旋转、不能导入游戏、不能3D打印。程序化三维建模生成可执行代码，编译后得到真实三维网格，支持精确修改、任意角度查看，并可直接用于游戏开发、工业设计等专业场景。

Q2：为什么Gemini 2.5 Pro和GPT-5.4 Nano未出现在排行榜？

A：这两个模型单次对话代码执行成功率极低：Gemini 2.5 Pro仅7.1%，GPT-5.4 Nano仅6.1%。分析发现约85%的失败案例是因为使用了已被Blender 5.0废弃的旧版API命令，属于训练数据知识截止日期问题，并非建模能力缺陷。因成功案例太少，统计不可靠，故排除出主要评测。

Q3：多轮错误反馈为何能大幅提升代码执行成功率？

A：大多数失败属于“API不兼容”这类局部可修复错误——例如函数参数名在Blender 5.0中更改或属性被移除。AI看到具体报错信息后能精准定位问题并修改对应代码，这与人类程序员调试逻辑一致。有了错误提示，修复成功率极高。数据显示11个模型平均可执行率从69.2%跃升至97.2%，证明“看错误日志改代码”的方法非常有效。