首个3D建模AI代码评测:谷歌DeepMind平台结果惊人

2026-06-06阅读 0热度 0
DeepMind

这项由谷歌DeepMind、谷歌研究院与南加州大学联合推进的研究,于2026年5月31日发表,论文编号arXiv:2606.01057v1。希望深入钻研的读者可直接通过该编号在arXiv平台检索完整论文。

AI会写3D建模代码了?谷歌DeepMind等机构推出首个专业评测平台,结果出人意料

你或许留意过,游戏与电影中那些生动逼真的三维场景,很大程度上依赖编程实现。传统3D建模需要设计师手动“捏”出模型,既耗时又考验艺术审美与技术功底。如今,让AI直接写代码生成模型听上去像科幻,但正逐步落地。一个关键问题始终悬而未决:这些AI的实际表现究竟如何?直到近期,一个专为此打造的“考场”才给出了详尽答案。

一、当AI遇上3D建模:一次意义深远的交叉

每当你畅玩一款精美的电子游戏,或欣赏电影中令人惊叹的特效场景,背后都有大量三维模型在支撑。这些模型并非凭空出现——专业设计师需花费数小时、数天甚至更久,使用专门软件一点一点“捏”出来。这一过程不仅耗费大量精力,还要求设计师同时精通艺术审美与技术编程,准入门槛极高。

然而,随着人工智能技术的迅速演进,一种全新的可能性浮现:让AI直接编写代码来生成三维模型。这种方式被称为“程序化三维建模”(Procedural 3D Modeling),其核心理念是用一段可执行的程序代码描述三维物体的构造方式,而非手动拖拽鼠标、调整参数。这样生成的模型不仅支持精确修改,还能被各类专业软件直接使用,甚至可随机产出无数风格相近但细节不同的变体——这是传统AI图像生成技术无法胜任的。

研究团队注意到,业界已有不少人在探索让AI驱动三维建模软件。例如,知名AI公司Anthropic宣布让旗下模型Claude直接操控Blender的计划,各种基于模型上下文协议的工具也层出不穷。但问题在于,始终缺少一个公认、严格的评测标准来衡量这些AI的真实水平。这好比举办了一场烹饪大赛,却没有裁判和评分标准,谁也说不清哪道菜更胜一筹。

正是为了填补这一空白,研究团队推出3DCodeBench——一个专用于评测AI程序化三维生成能力的基准测试平台。同时,他们还建立了3DCodeArena,一个让真实用户通过投票比较不同AI生成结果的公开平台。这两个工具构成了当前该领域最全面的评测体系。

二、什么是程序化三维建模?为何它与众不同

在深入解读评测结果之前,理解“程序化三维建模”这一概念至关重要。

大多数人熟悉的AI图像生成,比如用文字描述就能得到一张图片,产出的是“照片”即像素集合。这种图片视觉效果不错,但它不是真正的三维物体:无法嵌入游戏引擎,无法从任意角度查看,也无法精确修改某个零件的尺寸。

程序化三维建模则迥然不同。研究团队使用的平台是Blender 5.0,一款专业的开源三维软件。在Blender中,你可以用Python代码精确描述物体的每一根骨骼、每一块肌肉、每一片叶子的排列方式。当AI写出这样一段代码,Blender就能“翻译”并生成真实的三维网格模型——可从任意角度旋转查看,可导入游戏,可3D打印,也可随时通过修改代码来调整细节。

用一个生活化的比喻来理解:普通AI图像生成像给你一张房子的照片,而程序化三维建模则像提供一份建筑图纸加上施工说明——你不仅能看到房子外观,还能按图纸真正将其建造出来,甚至随时修改“把二楼改成三楼”。

这种能力在游戏开发、工业设计、机器人训练仿真等领域具有巨大价值。但要让AI实现它,需要同时掌握三件事:理解用户意图、掌握Blender的具体API、具备足够的三维空间几何推理能力。这三者叠加,对AI而言是不小的挑战。

三、26000个测试案例的来源:一条“流水线”背后的故事

要评测AI的能力,首先得有高质量的测试题目。研究团队为此投入大量精力,构建了一个包含26000个样本的数据集。

这些数据来源于名为Infinigen的开源程序化场景生成系统。该系统内部包含大量用代码写成的自然物体“工厂”——每种物体(如一棵树、一只螃蟹、一朵花)都有对应的程序代码,可按照随机参数生成无数个变体。研究团队的工作,是将这些复杂的“工厂代码”转换成独立可执行、简洁的Blender Python脚本,并为每个脚本配上文字描述和参考图片。

但转换过程绝非简单的复制粘贴,因为原始Infinigen代码结构极其复杂,充满嵌套调用和依赖关系,直接拿来根本无法运行。研究团队设计了一套“智能流水线”来完成这项工作,其中包含若干专门的AI工具分工协作。

代码简化器负责将冗长、嵌套的原始代码整理成干净独立的脚本,同时严格保证生成的三维形状不变样。模拟器则在沙盒环境中实际运行生成的代码,检查是否有报错,并提取网格数据。视觉评审员是一个视觉语言模型,它会将生成物体的多角度渲染图与原始参考图进行比较,发现视觉差异并反馈给前面的步骤。网格分析器则专门检查三维模型本身的质量,如是否存在无效几何体、非流形面或顶点数量异常等问题。

同时,系统还维护着一个“经验库”,持续积累已成功处理的类别信息、常见错误的修复策略、Blender 5.0的API变更记录,以及如何将各个独立零件拼装成完整物体的模板。随着处理的物体越来越多,经验库逐渐变得越来越聪明。

即使有了这套自动化流水线,研究团队也并未完全信任机器的判断。每一个最终进入数据集的样本,都必须经过人工审核:检查代码能否正常执行,文字描述是否准确,渲染图是否与参考图吻合。只有通过这道关卡的数据才能进入最终数据集。

最终,这套体系产出了涵盖212个物体类别的评测集,以及完整的约26000个“文字提示/参考图—代码—三维模型”三元组数据集,供未来的研究者进行模型训练使用。这212个类别涵盖范围极广——从自然界的动植物(鸟类、螃蟹、蜻蜓、仙人掌、龙舌兰)到家具(床、书柜、厨房橱柜),再到建筑构件,几乎覆盖了程序化建模的主要应用场景。

四、代码的复杂度远超想象

研究团队在整理数据时发现,这些测试案例的难度远超现有其他基准测试。

数据集中每段脚本的平均代码行数为531行,中位数为387行。对于复杂生物(如鸟类、螃蟹)或精细的室内物件(如树木、橱柜),代码长度甚至超过1000行。每段代码的文件大小平均为20.5KB,中位数14.9KB,分布呈现明显的“长尾”特征——大多数物体代码不算太长,但少数复杂物体的代码体量惊人。

这与业界之前那些“简单版本”的三维代码基准测试形成了鲜明对比。有的基准测试只让AI用几何基本体(球、方块、圆柱)拼出简单形状,有的只考察在体素网格(类似乐高积木的方格结构)中搭建模型,难度与真实专业需求相去甚远。3DCodeBench要求AI具备真正的几何推理能力,而不仅仅是记住几条API调用命令。

五、如何打分:评测体系的设计思路

有了测试题目,还需要一套评分标准。研究团队设计了两套互补的评分机制,就像一场考试同时有客观题和主观题。

客观评分部分由一系列自动化指标构成。第一道门槛是代码能否正常执行——给AI一段文字描述,让它写Blender代码,如果代码在Blender里跑起来能生成一个有效的三维网格,就算“通过执行测试”,否则直接判为失败。这一指标被称为“可执行率”(Executability)。

通过执行测试的模型还要继续接受外观相似度评测。具体做法是把AI生成的模型从四个固定角度(45度、135度、225度、315度)拍成渲染图,然后用两种专业的图像相似度算法——SigLIP-2和DINOv3——与参考图进行比较。SigLIP-2更擅长捕捉语义层面的相似性(“这看起来像一条鱼”),DINOv3则更关注形状和结构层面的相似性(“轮廓和结构像不像”)。

除了外观,研究团队还直接比较三维几何结构。他们把AI生成的三维模型和标准参考模型各自采样8192个表面点,然后用“倒角距离”(Chamfer Distance)来衡量两个点云之间的差异——这个数值越小,说明模型形状越接近真实参考。另一套工具叫Uni3D,它能把三维模型、文字和图片都映射到同一个“语义空间”里进行跨模态比较,既能评估AI生成模型与参考模型在三维形状上的相似程度,也能评估AI生成模型与文字描述的匹配程度。

所有指标都以两种方式汇报:一种是“条件均值”,只统计成功生成模型的那些案例的平均分,衡量“成功的案例做得有多好”;另一种是“惩罚均值”,把失败案例计为零分后再取平均,衡量“整体表现到底如何”。这两种视角各有侧重,放在一起才能给出全面的评价。

主观评分部分则是3DCodeArena平台。研究团队把不同AI生成的模型两两配对,放到一个公开网站上展示,让真实用户在不知道是哪个AI生成的情况下,投票选择哪个模型更好看、更像真实物体。这种方式模仿了著名的LMArena的机制,用Bradley-Terry算法把投票结果转换成Elo分数,最终形成一个可靠的排行榜。截至论文写作时,平台已收集了约3100票。

六、12个顶尖AI的成绩单:谁是三维建模高手?

研究团队对12个当前最先进的视觉语言模型进行了系统评测,来自谷歌的Gemini系列(包括Gemini 3 Flash、Gemini 3.1 Flash Lite、Gemini 3.1 Pro、Gemini 3.5 Flash、Gemma 4 26B、Gemma 4 31B)、Anthropic的Claude系列(Claude Haiku 4.5、Claude Sonnet 4.6、Claude Opus 4.7),以及OpenAI的GPT系列(GPT-5.4 Mini、GPT-5.4、GPT-5.5)。值得一提的是,有两个模型——Gemini 2.5 Pro和GPT-5.4 Nano——因为在单次对话中代码执行成功率低于10%而被排除在主要评测之外。

从最重要的可执行率来看,差距相当明显。Claude Opus 4.7以91%的可执行率居首,GPT-5.5以90.6%紧随其后,GPT-5.4以86.6%排名第三。相比之下,Gemini 3.5 Flash只有46.4%,Gemini 3 Flash为48.1%,Gemma 4 26B为51.7%。这意味着Gemini的轻量级模型生成的代码有超过一半都无法在Blender里正常运行。

从人类偏好Elo排名来看,GPT-5.5以1163分高居榜首,Gemini 3.5 Flash以1119分位居第二,Gemini 3.1 Pro以1147分第三,GPT-5.4以1074分第四。Claude Opus 4.7得到1006分,Claude Sonnet 4.6得到1015分,两者成绩相近但明显落后于顶尖选手。表现最差的是Claude Haiku 4.5,仅得799分,以及Gemini 3.1 Flash Lite的877分。

研究团队还特别计算了每个模型的性价比。他们发现,Gemini 3.5 Flash每次查询只需约0.04美元,而GPT-5.5需要约0.32美元——前者的成本只有后者的八分之一,但Elo分数只低了约44分(1119对1163)。如果在Pareto前沿(最高性价比曲线)上追踪,四个最具性价比的节点有四个都是Gemini模型。

七、失败的原因与成功后的缺陷:两类核心问题

数据给出了排名,但更有价值的是搞清楚为什么会失败,以及成功执行后的模型质量又如何。

研究团队发现,绝大多数执行失败(约85%-90%)都源于同一类原因:AI写的代码使用了Blender 4.x版本的旧API,而测试环境是Blender 5.0,两者之间存在接口不兼容。举几个具体的例子:Blender 5.0里已经移除了BSDF材质节点中的“Specular”参数,有些模型还在用旧写法导致报错;`Mesh.use_auto_smooth`这个属性在5.0里也不存在了;`create_cone`函数的参数名也发生了变化。这些都是知识截止日期导致的问题——AI在训练时可能接触的是更老版本的Blender文档,所以不了解最新的API变更。

换句话说,大多数失败不是因为AI不会建模,而是因为AI“用了过时的施工规范”。这一发现既说明问题所在,也指出了改进方向:只要给AI提供最新的API文档或者让它从错误信息中学习修正,执行成功率就能大幅提升。

然而,即便代码能够正常运行,生成的三维模型也并不完美。从质性比较来看,AI生成的模型普遍存在两类视觉问题:一是几何部件之间“悬浮”或“断开”,就像把一只螃蟹的八条腿分别放在空中,彼此没有连接;二是过于简化,用几个浮动的基本几何体草草代替复杂的有机形态。Gemini 3.1 Pro倾向于产生第一类问题(部件断开),Claude Opus 4.7则更容易出现第二类问题(过度简化)。

这表明现有AI虽然能写出“语法正确”的代码,但在“语义正确”层面——真正理解一个物体是如何在三维空间里有机地构成整体——还有相当大的提升空间。

八、思考时间越长越好吗?多轮对话的效果如何?

研究团队还进行了一系列“变量控制实验”,探索什么因素会影响AI的表现。

关于“思考时间”(Thinking Budget),不同级别的模型表现出截然不同的规律。对于轻量级模型,增加思考时间效果显著:Gemini 3.1 Flash Lite从“最小”思考量到“最高”思考量,可执行率提升了约19个百分点。道理不难理解:额外的思考让模型有机会在输出代码之前,先在脑子里“排查”可能的API兼容问题,自我纠错。然而对于顶尖模型来说,这种提升几乎可以忽略不计——Claude Opus 4.7在最低思考量时就已经达到了极限水平,继续增加思考时间几乎没有帮助。这是因为强模型已经“记住”了正确的API,只需略微确认一下,不需要大量推理。这个发现提示我们:把高思考量分配给弱模型比给强模型更划算,在实际应用中,根据模型能力级别来配置思考资源,可以在节省大量成本的同时维持接近最优的效果。

关于“输入图片数量”,研究团队测试了给AI输入1到4张参考图片的效果差异。结论有些出人意料:增加参考图片的数量,对生成质量的提升几乎可以忽略。SigLIP-2相似度在1到4张图之间的变化幅度不超过0.012,统计上没有显著意义。Uni3D三维相似度略有提升,但依然在误差范围内。这意味着,哪怕只给一张参考图,AI提取到的有效信息已经接近饱和,多余的图片并没有带来额外的几何理解增量。

九、给AI看执行错误日志,效果惊艳

单次对话的评测结果固然重要,但研究团队更感兴趣的是:如果让AI在失败后进行多轮修改,它能恢复多少?

多轮错误反馈实验的设计很直接:对于执行失败的案例,研究团队把Blender的错误日志(截取了前70%和后30%,总计不超过3000字符)连同之前的失败代码一起,发给同一个AI模型,让它尝试修正,最多允许三次机会。

结果相当令人振奋。所有11个模型、22个评测单元(文本到3D加图片到3D两个轨道)的平均可执行率,从单次对话的69.2%跃升至97.2%,提升了整整27个百分点。其中Claude Opus 4.7、GPT-5.4和GPT-5.5在两个轨道上都达到了100%的可执行率。不仅如此,生成质量也同步提升:SigLIP-2惩罚均值平均提升0.128,Chamfer距离平均下降0.079,Uni3D三维相似度平均提升0.069。

研究团队特别强调,这些质量提升数字是在固定的212个测试案例上计算的(失败案例贡献零分),因此完全排除了“因为成功案例变多导致分母变大”的干扰,真实反映了整体水平的提升。

背后的原因其实很简单:大多数失败都属于“局部可修复”的API错误——只要AI看到了具体的报错信息,就知道是哪行代码出了问题,改一改就好。这和人类程序员调试代码的经验高度一致:很多时候,看到报错比盲猜要有用得多。

十、给AI配上“智能编程助手”,更上一层楼吗?

研究团队还尝试了一种更进一步的方案:给每个AI配上它对应的“原生智能编程助手”工具,让AI在一定时间预算内完全自主地编写代码、运行测试、读取报错、修改代码、再次运行……循环往复直到成功或超时。

具体来说,Gemini系列用Gemini CLI,Claude系列用Claude Code,GPT系列用Codex CLI,每个实例的时间预算为600到900秒。AI会在沙盒目录里自主操作,研究团队只提供任务描述,其余完全交给AI自己决定。

结果是:这些智能助手工具确实进一步提升了可执行率,平均从71.6%提升至99.5%,三个模型达到了100%的执行率上限。然而,对于那些单次对话就能成功执行的案例,加了智能助手之后生成模型的质量几乎没有变化——SigLIP-2只变动了-0.010,Chamfer距离只变动了+0.001,Uni3D三维相似度只变动了-0.003,这些差异几乎都在统计误差范围之内。

这个发现揭示了一个值得深思的现象:自动化的“修修补补”能修复API报错,但无法让AI真正理解三维几何。一旦代码成功编译,模型的三维形状质量就基本定型了——智能助手并没有能力在后期“雕塑”出更精细的几何细节。这就好像一个工人能熟练地修好施工过程中的管道漏水,却没有设计师的能力重新规划整栋建筑的布局。

十一、视觉自我审查:让AI看自己的作品,有用吗?

研究团队还测试了一种更具创造性的改进路径:让AI查看自己生成模型的渲染图,与原始描述或参考图片比较,然后决定是否需要重写代码。

结果呈现出一个有趣的“任务不对称性”。在文字到3D的轨道上,视觉自我审查普遍有效,四个测试模型的SigLIP-2相似度平均提升了0.003到0.009,大多数模型的“改进次数”多于“变差次数”,比例从1.24到2.63不等,其中Gemma 4 26B表现最好,50次改进对应19次退步。

然而在图片到3D的轨道上,同样的模型却普遍变差了,SigLIP-2平均下降0.006到0.009,改进/退步比例下降到0.58到0.78。研究团队分析,这种“同一批模型、同一个方法、但在不同任务上结果相反”的现象,根本原因在于指标的天花板效应:图片到3D任务的SigLIP-2基准值已经在0.78到0.81之间,非常接近参考渲染图能达到的上限,此时任何轻微的几何改动都可能在渲染外观上引入噪声,被评分系统判定为变差。换句话说,不是AI改坏了,而是评分尺子在这个区间不够精细。

值得注意的是,模型能力越强,作为“自我审查者”越保守。Gemma 4 31B(较强模型)只对41%的案例说“需要修改”,而较弱的模型则激进得多,经常不必要地大幅重写代码,结果往往弄巧成拙。

十二、自动评分可以代替人工投票吗?

3DCodeArena的人工投票固然可靠,但每一票都需要真实用户花时间观察和判断,规模化代价高昂。研究团队因此研究了一个关键问题:能不能用AI来代替人工投票?

他们用四个谷歌模型(Gemini 3.1 Pro、Gemini 3 Flash、Gemini 3.1 Flash Lite、Gemma 4 31B)对2508个真实投票案例进行了重新判断,每个模型分别以“看渲染图”和“看代码”两种模式工作,评估结果与人工投票进行比对。

看渲染图模式的表现还算令人满意:四个模型的总体准确率在62.5%到64.7%之间,如果只看双方都做出明确选择(而非选择“平局”)的案例,准确率进一步提升至72.6%到74.4%。其中Gemini 3.1 Pro在剔除“弃权”案例后准确率最高(77.1%),Cohen's kappa系数(衡量超越随机概率的一致性)达到0.542,属于“中等偏高”的一致性水平。

看代码模式的表现则明显逊色:准确率下降到51.7%到56.9%,kappa系数只有0.249到0.348,属于“一般”到“中等”的一致性水平。这说明仅凭读代码无法可靠地预测生成三维模型的质量,渲染图依然是不可替代的评估媒介。

研究团队还发现,SigLIP-2视图相似度与人类偏好Elo的皮尔逊相关系数高达0.964,DINOv3的Spearman相关系数更是达到了0.972,两个指标都与人工偏好高度吻合。这意味着,在大多数情况下,用SigLIP-2和DINOv3作为自动化评估指标,能够相当准确地代表人类的审美判断,无需每次都进行昂贵的人工投票。

归根结底,3DCodeBench做的这件事,是给“AI会不会写三维建模代码”这个问题提供了一个真正科学的答案:会,但还不够好。当前最强的AI已经能让90%的代码在Blender里正常运行,但生成的模型往往在几何连贯性上存在明显缺陷,部件悬浮、比例失调、细节简化的问题普遍存在。更深层的问题在于,现有AI缺乏对三维空间物理规律的真实理解,写出的代码“语法正确但语义模糊”。

这项研究还揭示了一条清晰的改进路径:让AI在执行环境中得到真实反馈、进行迭代修正,是目前提升性能最有效的手段,远比增加思考时间或增加输入图片数量更有效。而要根本性地提升AI的三维推理能力,则需要大量高质量的程序化三维代码训练数据——这正是3DCodeBench的另一个重要价值所在:它所提供的26000个数据样本,为未来训练更懂三维空间的AI提供了一块坚实的基石。

对于关心AI发展走向的读者,一个有趣的思考题是:当AI能够流畅地将文字或图片转化为精确、可编辑的三维模型时,谁将是最大的受益者?是游戏开发者、建筑师、机器人工程师,还是我们每一个普通人?这个问题的答案,或许比技术本身更值得期待。

---

Q&A

Q1:3DCodeBench评测的是什么能力,和普通AI图像生成有什么区别?

A:3DCodeBench评测的是AI能否用Python代码在Blender软件里生成真正的三维模型,而不是生成一张好看的图片。普通AI图像生成产生的是像素图片,无法从任意角度旋转、无法导入游戏或3D打印;而程序化三维建模生成的是可执行的代码,编译后得到真实的三维网格,可以精确修改、从任意角度查看,并直接用于游戏开发、工业设计等专业场景。

Q2:为什么Gemini 2.5 Pro和GPT-5.4 Nano没有出现在排行榜里?

A:这两个模型在单次对话中代码执行成功率太低,Gemini 2.5 Pro只有7.1%,GPT-5.4 Nano只有6.1%。研究团队分析发现,它们的约85%失败案例都是因为使用了已被Blender 5.0废弃的旧版API命令,属于训练数据知识截止日期导致的问题,而非建模能力本身的缺陷。由于成功案例太少,统计数字不可靠,所以被排除在主要评测之外。

Q3:多轮错误反馈为什么能大幅提升AI的代码执行成功率?

A:因为大多数失败都属于“API不兼容”这种局部可修复的错误,比如某个函数参数名在Blender 5.0里改了,或者某个属性被移除了。当AI看到具体的报错信息(就像程序员看调试日志一样),就能精准定位问题所在,把那行代码修改掉。这和盲目重新生成代码完全不同,有了错误提示,修复成功率极高。研究数据显示,11个模型的平均可执行率从69.2%跃升至97.2%,说明这种“看错误日志改代码”的方法非常有效。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策