2025 3D建模代码评测榜:DeepMind平台首测结果出人意料

2026-06-07阅读 0热度 0
DeepMind

2026年5月31日,谷歌DeepMind、谷歌研究院与南加州大学联合发表了一篇预印本论文(arXiv:2606.01057v1),系统评估了当代大语言模型在程序化三维建模任务上的表现。若想深入技术细节,可直接在arXiv搜索该编号获取完整论文。

一、AI遇上3D建模:一次关键的范式跃迁

电子游戏中的沉浸场景和电影特效背后的核心资产是什么?三维模型。每一个模型都需要专业设计师在Blender、Maya等工具中耗费数小时甚至数天手工雕琢。这不仅要求设计师具备扎实的美学功底,还需要掌握复杂的软件操作与编程逻辑,入门门槛极高。

人工智能的介入开辟了一条全新路径:让AI自主生成代码来构造三维模型。这种“程序化三维建模”(Procedural 3D Modeling)的核心,是用可执行的程序代码精确描述物体的几何构造,而非手动调整参数。生成的模型不仅可编辑、兼容专业工作流,还能随机生成大量风格一致但细节迥异的变体——这是传统AI图像生成无法实现的。

业界已有先行者。Anthropic宣称要让Claude直接操控Blender,基于模型上下文协议(MCP)的工具层出不穷。然而,缺乏统一的评测标准导致各AI的实际能力无法横向对比。正如一场没有裁判的厨艺大赛,无人知晓真正的冠军。

为此,研究团队构建了3DCodeBench——专门评测AI程序化三维生成能力的基准测试。同时配套推出3DCodeArena,一个公开投票平台,让真实用户通过比较不同AI的生成结果来给出偏好。两套系统组合,构成了目前该领域最全面的评估框架。

二、程序化三维建模:核心概念与独特价值

在分析评测结果之前,需要明确定义“程序化三维建模”的含义。

常见的AI图像生成器(如Stable Diffusion)输入“一只金毛犬”后输出像素图片。这些图片无法旋转、不能导入游戏引擎、也无法3D打印。它们只是二维像素矩阵,而非三维几何体。

程序化三维建模则截然不同。研究团队选用Blender 5.0——功能强大的开源三维软件。通过Python代码,AI可以精准描述物体每个部件的空间位置与连接关系。Blender解析代码后生成真实的三维网格模型,支持任意角度查看、导入游戏、3D打印,并可通过修改代码微调细节。

类比一下:普通AI图像生成给你一张房屋照片,程序化三维建模给你建筑蓝图加施工说明——不仅能看见外观,还能按图施工,甚至随时将二楼改为三楼。

这项能力在游戏开发、工业设计、机器人训练仿真等领域价值巨大。但AI要做到这一点,必须同时具备三项技能:准确理解用户指令(如“生成一只螃蟹”)、精通Blender的API接口、具备坚实的三维空间几何推理能力。三者叠加,挑战性极高。

三、26000个测试案例:流水线的幕后故事

高质量测试集是评测的基础。研究团队耗力打造了一个包含26000个样本的数据集。

数据源自Infinigen——一个开源程序化场景生成系统。该系统内含大量用代码编写的自然物体“工厂”,每种物体(树木、螃蟹、花朵等)对应一段可随机参数生成无数变体的程序。团队的任务是将这些复杂的“工厂代码”转化为独立执行、简洁的Blender Python脚本,并为每个脚本配文字描述与参考图片。

这一转换绝非简单复制粘贴。原始Infinigen代码嵌套深、依赖复杂,直接运行会报错。研究团队设计了一套“智能流水线”,配备多个专业AI工具协同工作。

代码简化器负责将冗长的原始代码整理成独立脚本,同时确保生成的三维形状不变。模拟器在沙盒中运行代码,检查错误并提取网格数据。视觉评审员(一个视觉语言模型)比对生成物体的多角度渲染图与参考图,发现差异立即反馈。网格分析器检查模型质量,如无效几何体、非流形面、顶点数量异常等。

系统还维护一个“经验库”,持续积累成功处理的类别信息、常见错误修复策略、Blender 5.0 API变更记录以及零件拼装模板。随着处理量增加,经验库会自我进化。

即使拥有自动化流水线,团队仍坚持人工审核。每个最终入集的样本必须通过:代码可执行、文字描述准确、渲染图与参考图吻合。只有通过这一关的数据才能进入最终数据集。

最终,这套体系产出了涵盖212个物体类别的评测集,以及约26000个“文本提示/参考图—代码—三维模型”三元组。212个类别覆盖自然动植物(鸟类、螃蟹、蜻蜓、仙人掌、龙舌兰)、家居(床、书柜、厨房橱柜)和建筑构件,基本覆盖程序化建模的主要应用场景。

四、代码复杂度:远超现有基准

整理数据时,团队发现这些测试案例的难度远超业界其他基准测试。

数据集中,每段脚本平均531行代码,中位数387行。鸟类、螃蟹等复杂生物或树木、橱柜等精细室内物件的代码长度常超1000行。文件大小平均20.5KB,中位数14.9KB,呈长尾分布——多数物体代码不长,但少数复杂物体的体量惊人。

这与之前的“简易版”三维代码基准形成鲜明对比。某些基准只要求AI用球体、方块、圆柱拼出简单形状,或仅在体素网格中搭建模型。其难度与真实专业需求差距巨大。3DCodeBench要求AI具备真正的几何推理能力,而非仅记住几条API调用命令。

五、评分体系:客观与主观双轨并行

有测试题还需评分标准。研究团队设计了两套互补的评分机制,类似同时考客观题和主观题。

客观评分由自动化指标构成。第一道门槛是代码能否正常运行:给出文字描述,AI写出Blender代码,若能在Blender中成功运行并生成有效三维网格则“通过执行测试”,否则为失败。该指标称为“可执行率”(Executability)。

通过执行测试的模型继续接受外观相似度评测。从四个固定角度(45°、135°、225°、315°)渲染生成模型,并用SigLIP-2和DINOv3两种图像相似度算法与参考图比较。SigLIP-2侧重语义相似度(“这看起来像一条鱼”),DINOv3聚焦形状结构相似度(“轮廓像不像”)。

除外观外,团队还直接比较三维几何结构。对AI生成模型与标准参考模型各采样8192个表面点,用倒角距离(Chamfer Distance)衡量点云差异——数值越小形状越接近。另一个工具Uni3D可将三维模型、文字和图片映射到同一语义空间,进行跨模态比较,既能评估生成模型与参考模型在三形状上的相似度,也能评估与文字描述的匹配度。

所有指标以两种方式汇报:条件均值(仅统计成功案例的平均分,衡量“成功案例质量”),惩罚均值(失败案例计零分后取平均,衡量“整体表现”)。两者结合给出全面评价。

主观评分由3DCodeArena平台执行。团队将不同AI生成模型两两配对,匿名展示给真实用户,让他们投票选出更好看、更逼真的模型。该机制模仿LMArena,用Bradley-Terry算法将投票转化为Elo分数,形成可靠排行榜。截至论文撰写,平台已收集约3100票。

六、12个顶尖AI的成绩单:谁是三维建模强者?

研究团队系统评测了12个当前最先进的视觉语言模型。阵容包括:谷歌的Gemini系列(Gemini 3 Flash、Gemini 3.1 Flash Lite、Gemini 3.1 Pro、Gemini 3.5 Flash、Gemma 4 26B、Gemma 4 31B),Anthropic的Claude系列(Haiku 4.5、Sonnet 4.6、Opus 4.7),以及OpenAI的GPT系列(GPT-5.4 Mini、GPT-5.4、GPT-5.5)。Gemini 2.5 Pro和GPT-5.4 Nano因单次代码执行成功率低于10%被排除出主要评测。

在可执行率方面,差异明显。Claude Opus 4.7以91%领先,GPT-5.5以90.6%紧随,GPT-5.4以86.6%排名第三。相比之下,Gemini 3.5 Flash仅46.4%,Gemini 3 Flash为48.1%,Gemma 4 26B为51.7%。Gemini轻量级模型生成的代码超过一半无法在Blender中运行。

人类偏好Elo排名方面,GPT-5.5以1163分高居榜首,Gemini 3.5 Flash以1119分第二,Gemini 3.1 Pro以1147分第三,GPT-5.4以1074分第四。Claude Opus 4.7得1006分,Claude Sonnet 4.6得1015分,两者相近但落后于领跑者。表现最差的是Claude Haiku 4.5(799分)和Gemini 3.1 Flash Lite(877分)。

团队还计算了性价比:Gemini 3.5 Flash每次查询约0.04美元,GPT-5.5约0.32美元——前者成本不足后者八分之一,但Elo分数仅低44分(1119 vs 1163)。在Pareto前沿上,四个最具性价比节点全部来自Gemini模型。

七、失败原因与成功缺陷:两类核心问题

排名之外,更有价值的是分析失败原因与成功执行后的质量问题。

团队发现,约85%-90%的执行失败源自同一原因:AI写的代码使用了Blender 4.x版本的旧API,而测试环境是Blender 5.0,存在接口不兼容。例如,Blender 5.0移除了BSDF材质节点的“Specular”参数,`Mesh.use_auto_smooth`属性也不复存在,`create_cone`函数参数名更改。根源在于AI的知识截止日期——训练时接触的可能是更老版本的Blender文档。

换言之,大多数失败并非AI不会建模,而是用了过时的“施工规范”。这一发现指向明确的改进方向:只要提供最新API文档或允许AI从错误信息中学习,执行成功率就能大幅提升。

即便代码可正常运行,生成模型也并非完美。质性比较揭示两类视觉缺陷:几何部件悬浮或断开(如螃蟹腿漂浮于空中),以及过度简化(用几个浮动几何体替代复杂有机形态)。Gemini 3.1 Pro易出现部件断开问题,Claude Opus 4.7则更容易过度简化。

这说明现有AI能写出“语法正确”的代码,但在“语义正确”层面——真正理解物体在三维空间中的有机构成——仍有很大提升空间。

八、思考时间与多轮对话:变量控制实验

团队进行了一系列变量控制实验,探索影响AI表现的关键因素。

关于思考时间(Thinking Budget),不同级别模型表现迥异。对轻量级模型,增加思考时间效果显著:Gemini 3.1 Flash Lite从最低到最高思考量,可执行率提升约19个百分点。额外思考让模型有机会在输出前排查API兼容问题。但对顶尖模型,提升几乎为零——Claude Opus 4.7在最低思考量时已达极限,继续增加无效。这是因为强模型已“记住”正确API,无需大量推理。实践启示:将高思考量分配给弱模型比分配给强模型划算,可根据模型级别配置资源以节省成本且维持近最优效果。

关于输入图片数量(1到4张参考图),结论出乎意料:增加图片数量对生成质量提升可忽略不计。SigLIP-2相似度在1到4张图间变化不超过0.012,无统计显著性;Uni3D三维相似度略有提升但仍在误差范围。这说明单张参考图已提供接近饱和的有效信息,额外图片带来的几何理解增量极小。

九、错误日志反馈:惊艳的效果

单次对话评测重要,但团队更关心多轮修复能力:让AI在失败后根据错误日志修改代码,能补救多少?

多轮错误反馈实验设计如下:对执行失败的案例,将Blender错误日志(截取前70%和后30%,总不超过3000字符)连同失败代码返回给同一AI模型,最多允许三次修正机会。

结果令人振奋。所有11个模型、22个评测单元(文本到3D和图片到3D两个轨道)的平均可执行率从单次对话的69.2%跃升至97.2%,提升27个百分点。Claude Opus 4.7、GPT-5.4和GPT-5.5在两个轨道都达100%可执行率。生成质量同步提升:SigLIP-2惩罚均值平均提升0.128,Chamfer距离平均下降0.079,Uni3D三维相似度平均提升0.069。

团队强调,这些质量提升基于固定212个测试案例计算(失败案例计零分),排除“成功案例增多导致分母变大”的干扰,真实反映整体水平提升。

原因很简单:大多数失败属于“局部可修复”的API错误。AI看到具体报错信息后能精准定位并修改代码,这与人类程序员调试经验一致——看到报错远比盲目猜测有效。

十、智能编程助手:能否更进一步?

团队尝试更激进的方案:为每个AI配置对应的“原生智能编程助手”工具,让AI在限时内完全自主编写代码、运行测试、读取报错、修改代码、再运行,直到成功或超时。

具体操作:Gemini系列用Gemini CLI,Claude系列用Claude Code,GPT系列用Codex CLI,每个实例时间预算600-900秒。AI自主在沙盒目录操作,团队仅提供任务描述。

结果:智能助手工具进一步提升了可执行率,平均从71.6%提升至99.5%,三个模型达100%上限。但那些单次对话已能成功执行的案例,加上智能助手后生成模型质量几乎不变——SigLIP-2变动-0.010,Chamfer距离变动+0.001,Uni3D变动-0.003,均在统计误差内。

这一发现揭示:自动化“修修补补”能修复API报错,但无法让AI真正理解三维几何。代码成功编译后模型形状质量基本定型——智能助手没有能力在后期“雕塑”更精细的几何细节。好比工人能修管道漏水,却无法重新规划建筑布局。

十一、视觉自我审查:AI审视自己的作品有用吗?

团队测试了一种更具创造性的路径:让AI查看自己生成模型的渲染图,与原始描述或参考图比较,然后决定是否重写代码。

结果呈现有趣的“任务不对称性”。在文本到3D轨道上,视觉自我审查普遍有效:四个测试模型SigLIP-2相似度平均提升0.003-0.009,多数模型“改进次数”多于“变差次数”,比例1.24-2.63。Gemma 4 26B表现最佳,50次改进对应19次退步。

但在图片到3D轨道上,同一模型普遍变差:SigLIP-2平均下降0.006-0.009,改进/退步比例降至0.58-0.78。团队分析认为,根本原因是指标天花板效应:图片到3D任务SigLIP-2基准值已在0.78-0.81之间,非常接近参考渲染图上限。此时任何轻微几何改动都可能在渲染外观上引入噪声,被评分系统判定为变差。并非AI改坏,而是评分量尺在此区间不够精细。

值得注意的是,模型能力越强,作为“自我审查者”越保守。Gemma 4 31B(较强模型)仅对41%的案例说“需要修改”,而较弱模型则激进得多,经常不必要地大幅重写代码,结果弄巧成拙。

十二、自动评分能否替代人工投票?

3DCodeArena的人工投票虽然可靠,但规模化成本高昂。团队探讨了用AI替代人工投票的可能性。

他们用四个谷歌模型(Gemini 3.1 Pro、Gemini 3 Flash、Gemini 3.1 Flash Lite、Gemma 4 31B)对2508个真实投票案例重新判断,每种模型分别以“看渲染图”和“看代码”两种模式工作,然后将结果与人工投票对比。

看渲染图模式表现令人满意:四个模型总体准确率62.5%-64.7%;若只看双方都做出明确选择(而非“平局”)的案例,准确率升至72.6%-74.4%。其中Gemini 3.1 Pro在剔除弃权案例后准确率最高(77.1%),Cohen's kappa系数达0.542,属“中等偏高”一致性。

看代码模式明显逊色:准确率降至51.7%-56.9%,kappa系数0.249-0.348,属“一般”到“中等”一致性。仅凭读代码无法可靠预测生成模型质量,渲染图仍是不可替代的评估媒介。

团队还发现,SigLIP-2视图相似度与人类偏好Elo的皮尔逊相关系数高达0.964,DINOv3的Spearman相关系数达0.972,两个指标都与人工偏好高度吻合。这意味着在大多数情况下,用SigLIP-2和DINOv3作为自动化评估指标可准确代表人类审美判断,无需每次都进行昂贵的人工投票。

归根结底,3DCodeBench为“AI能否编写三维建模代码”这个问题提供了科学答案:能,但还不够好。当前最强AI已让90%的代码在Blender中正常运行,但生成模型普遍存在几何连贯性缺陷——部件悬浮、比例失调、细节简化。更深层问题是现有AI缺乏对三维空间物理规律的真实理解,写出的代码“语法正确但语义模糊”。

这项研究还揭示了一条清晰的改进路径:让AI在执行环境中获得真实反馈并迭代修正,是目前提升性能最有效的手段,远比增加思考时间或图片数量有效。而要根本性提升AI的三维推理能力,需要大量高质量的程序化三维代码训练数据——这正是3DCodeBench的另一重要价值:提供的26000个数据样本为未来训练更懂三维空间的AI奠定了坚实基础。

对于关注AI发展的读者,一个有趣的问题浮出水面:当AI能流畅地将文字或图片转化为精确、可编辑的三维模型时,最大受益者是谁?游戏开发者、建筑师、机器人工程师,还是每一个普通人?这个问题的答案或许比技术本身更值得期待。

Q&A

Q1:3DCodeBench评测的是哪类能力?与普通AI图像生成有何不同?

A:3DCodeBench评测AI能否用Python代码在Blender中生成真正三维模型,而非输出一张好看图片。普通AI图像生成产生像素图片,无法旋转、不能导入游戏、不能3D打印。程序化三维建模生成可执行代码,编译后得到真实三维网格,支持精确修改、任意角度查看,并可直接用于游戏开发、工业设计等专业场景。

Q2:为什么Gemini 2.5 Pro和GPT-5.4 Nano未出现在排行榜?

A:这两个模型单次对话代码执行成功率极低:Gemini 2.5 Pro仅7.1%,GPT-5.4 Nano仅6.1%。分析发现约85%的失败案例是因为使用了已被Blender 5.0废弃的旧版API命令,属于训练数据知识截止日期问题,并非建模能力缺陷。因成功案例太少,统计不可靠,故排除出主要评测。

Q3:多轮错误反馈为何能大幅提升代码执行成功率?

A:大多数失败属于“API不兼容”这类局部可修复错误——例如函数参数名在Blender 5.0中更改或属性被移除。AI看到具体报错信息后能精准定位问题并修改对应代码,这与人类程序员调试逻辑一致。有了错误提示,修复成功率极高。数据显示11个模型平均可执行率从69.2%跃升至97.2%,证明“看错误日志改代码”的方法非常有效。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策