清华VAST空间智能密度控制：3D生成新范式高效算力指南

2026-05-25阅读 0热度 0

3D生成

审视当前主流的3D生成技术路线，一个核心瓶颈逐渐浮现：它们都面临着资源分配效率的挑战。

对于3D AIGC开发者而言，模型在生成单一对象上表现尚可，但其输出结构的复杂度往往被预设的模型架构所限制，缺乏必要的灵活性。图形学与渲染专家则更关注3D表示能否实现计算资源的精准投放。与此同时，游戏、XR及交互内容开发者持续面临一个现实问题：能否基于同一份3D资产，高效衍生出高质量的离线版本与轻量级的实时版本，而非重复制作两套独立资源。

这些不同维度的需求，共同指向了一个根本矛盾：

现有诸多3D生成方法，在产出结果的同时，未能实现智能化的资源分配。

以广泛应用的3D高斯表示为例。一个理想的系统应能自主判断：物体的边缘轮廓、复杂纹理区域需要部署更密集的高斯球以精确刻画，而平坦、均质的区域则可采用稀疏表示。然而，许多现有方法更像是应用固定模板进行生成，而非依据物体自身的几何与纹理复杂度，自适应地决策“何处应投入多少表示资源”。

SIGGRAPH 2026收录的论文《Generative 3D Gaussians with Learned Density Control》，正是针对这一痛点提出的解决方案。

这项由VAST与清华大学合作的研究，提出了一种名为“密度采样高斯”（Density-Sampled Gaussians, DeG）的新型表示方法。其目标不再是生成固定数量的高斯球，而是让模型学会一套“高斯球采样策略”：在细节丰富的复杂区域增加采样密度，在结构简单的区域减少采样，并且这一策略能够直接从最终的渲染误差中进行端到端学习。

这看似是一个工程优化问题，实则决定了3D生成结果的本质差异：是得到一个“视觉效果尚可但笨重僵化的静态输出”，还是一个能够根据预算弹性伸缩、依据部署需求灵活适配、真正具备实用价值的动态3D表示。

从固定结构到可学习密度

3D高斯表示此前备受关注，关键在于其在渲染质量与计算效率间取得了良好平衡。它不依赖传统网格的复杂拓扑，却能产出高质量的视觉结果。其优化过程有一个核心优势，却也是生成式模型（如扩散模型）最难继承的部分——即对空间密度的动态控制。

在传统的3D高斯优化流程中，算法会持续执行“密集化”与“稀疏化”操作。简言之，若某局部区域拟合不足，则在该处“补充”更多高斯球；若某些高斯球贡献度极低，则将其“剔除”。

这套机制之所以有效，源于现实世界物体复杂度的非均匀特性。边缘、薄壁结构、纹理剧烈变化区域天然需要更强的表示能力；而大块平整、变化平缓的区域，过度堆砌高斯球则会造成资源浪费。

问题在于，这种“增删点”的流程本质上是离散的、基于启发式规则的、不可微分的。这对于单个物体的拟合是有效的，但对于需要从前馈式生成、从单张图像直接预测3D高斯的模型而言，则难以直接集成。因此，许多现有方法退而求其次，采用了固定结构方案：

有的方法将高斯球锚定在体素网格上；有的为每个体素分配固定数量的高斯；还有的为2D图像的每个像素预测固定数量的高斯。

这种做法确实降低了训练难度，但代价是牺牲了3D高斯最核心的灵活性优势。

DeG的核心创新，在于将“确定高斯球中心位置”这一问题，从固定的回归任务，转变为从概率密度分布中进行采样的任务。

换言之，模型不再直接输出一组固定的坐标，而是先学习一个定义在3D空间内的概率密度分布。该分布可视为一张“资源分配热力图”，清晰标识了哪些空间位置更值得放置高斯球（高概率区域），哪些位置重要性较低（低概率区域）。

在推理阶段，模型直接从学习到的分布中采样出一组高斯球，构成最终的3D资产。这一转变，为整个表示方法赋予了两种关键的实际能力。

能力一：任意数量采样

由于模型学习的是“概率分布”而非“固定长度的输出序列”，因此在推理时可以根据实际部署需求，采样任意数量的高斯球。需要适配移动端、实现实时预览或进行低成本传输？减少采样数量即可。需要高保真离线渲染、复杂场景展示？增加采样数量即可。

这意味着，开发者无需为不同的分辨率或预算约束训练多个独立模型。同一个模型、同一套学习到的表示，仅通过调整采样数量，就能灵活适应多样化需求。考虑到3D高斯的渲染开销，这种灵活性对于实际应用部署至关重要。毕竟，多数应用场景追求的不是绝对极致的画质，而是在给定设备性能与时延预算下，获得“最适宜”的3D资产。

能力二：非均匀采样

DeG并非在3D空间中进行均匀随机采样。在训练过程中，模型会根据渲染重建损失，自动将更多的采样预算“倾斜”到真正复杂的区域。例如，物体的薄壁结构、尖锐边缘、几何突变或高频纹理区域，会自然获得更高的高斯球密度；而在平坦、规则、变化平缓的区域，高斯球分布则相对稀疏。

这标志着模型开始真正掌握“将好钢用在刀刃上”的智能资源分配能力。这也引出了该方法最核心的算法挑战：

这种空间上的智能密度控制策略，究竟该如何通过训练习得？

核心挑战：如何教会模型“分配资源”？

初次接触此问题，可能会设想：既然最终有渲染损失，直接进行反向传播不就可以了吗？

真正的难点在于，高斯球的位置是通过“采样”操作获得的。采样本身是一个非连续、不可微的过程，因此渲染误差无法像在常规神经网络中那样，顺畅地反向传播回“空间密度分布”的参数。也就是说，模型虽然能感知最终渲染结果的误差位置，却难以直接判断：应该提高哪些区域被采样的概率，又该降低哪些区域的概率。

本论文的关键突破，在于为这一难题构建了一个可训练的梯度信号，作者称之为“渲染损失贡献梯度”。其本质可理解为一种面向高斯采样的策略梯度方法。

其思想非常直观。假设我们从当前的密度分布中采样出一批高斯球。现在，试想如果移除其中的某一个高斯球，重新计算渲染损失会发生什么变化？

如果移除后渲染质量显著下降，则说明该高斯球至关重要，它有效地表征了所在区域。那么，系统就应奖励这类位置，提高其未来被采样的概率。

反之，如果移除它几乎无影响，甚至结果有所改善，则说明该位置的高斯球价值有限，其被采样的概率就应被降低。

更通俗地讲，这个梯度在回答一个问题：“这次被采样到的这个高斯球，其‘边际贡献’究竟有多大？”

这是一种典型的强化学习策略视角。采样位置如同“智能体做出的决策”，而渲染误差则提供了“环境反馈的奖励信号”。对降低整体误差有积极贡献的决策（位置）获得奖励，贡献微弱的则少奖励甚至给予惩罚。

从数学形式上看，这一思路与策略梯度方法一致。作者进一步将其表述为“差分奖励”形式，即比较“包含该高斯球”与“不包含该高斯球”两种情况下，渲染损失的差值。这个差值精确刻画了该高斯球的边际贡献。

更重要的是，这并非一个仅凭直觉设计的技巧。论文从“渲染损失的期望值”出发，严格推导了其对密度分布参数的梯度，最终得到了可用于优化的梯度信号。也就是说，作者是在使用梯度下降方法，直接优化高斯球应如何分布与采样。这与传统3D高斯中基于人工规则的剪枝和密化操作，虽然目标相似，但方法论已全然不同。

当然，若严格为每个高斯球计算“留一法”贡献，计算代价将无法承受，因为这相当于需要为每个高斯球单独执行一次删除并重新渲染。

随之而来的挑战是：如何高效地计算这个定义清晰的目标？作者针对L1渲染损失，提出了一种既精确又高效的计算方案。简而言之，对于L1损失项，渲染器在常规渲染过程中已可获得若干关键中间值，仅需进行少量额外计算，即可得到所需的贡献值，而无需反复执行删除和重渲染。具体计算流程可参阅论文中的伪代码部分。

至此，原本依赖人工规则的密集化/稀疏化过程，被转化为了一个可微、可学习、可批量训练的空间密度优化过程。这项工作首次将3D高斯的密度控制，真正变成了一个端到端的优化问题。

从技术突破到应用价值

从应用视角评估，这套方法的价值更为直接。

首先，它使3D资产真正具备了按预算弹性伸缩的能力。以往许多方法一旦完成生成，输出规模便基本固定。若需更轻量版本，往往只能事后压缩，可能损失质量；若追求更高保真度，则常意味着重新训练或从一开始就承担高昂的表示成本。

而在DeG框架下，模型输出的是一个“可采样的密度分布”。这意味着同一物体可以自然地衍生出不同规模的高斯表示版本。对于移动端、实时交互、在线预览等场景，可采样一个数量较少、更轻量的版本；对于影视级展示、数字藏品或离线精修，则可直接提高采样预算，获得更密集、更精细的版本。

其次，它让3D表示开始真正理解物体的局部复杂度差异。许多固定结构方法的问题，不在于无法生成高斯球，而在于无法判断哪些区域更值得投入表示预算。结果常导致简单区域资源过剩，而复杂区域却资源不足。DeG的非均匀采样机制恰恰相反，它将表示容量更集中地分配给细节、边界、薄结构和高误差区域。这一点在低预算场景下尤为关键。因为当总的高斯球数量有限时，“如何分配”比“总量多少”更为重要。论文中的实验也表明，这种空间智能密度控制带来的性能增益，在少量高斯球的区间尤为显著。换言之，预算越紧张，该方法的优势就越突出。

进一步看，这种能力对众多应用场景都至关重要：

对游戏和XR：意味着同一个生成模型能更便捷地适配不同性能等级的硬件设备和实时性约束。
对3D内容平台：意味着资产可以更自然地提供多种质量档位，无需为每个档位单独制作，实现了类似LOD（细节层次）的自动化效果。
对AIGC工作流：意味着生成系统输出的不再只是一个静态“结果”，而是一个更可调控、更易部署的中间表示。
对机器人仿真、数字孪生和交互式AI环境：意味着有限的计算资源可以优先用于真正影响几何感知与渲染质量的关键部分。

论文展示了具有代表性的实验结果。作为一个单图到3D的生成框架，DeG在重建与生成质量上均表现强劲。在相近的高斯预算下，其视觉质量优于TRELLIS、UniLat3D等代表性方法；若以达到相近视觉质量所需的高斯数量作为衡量标准，DeG能显著减少用量。文中指出，在某些场景下，DeG达到与TRELLIS相当的视觉质量时，所需的高斯数量不到后者的一半。

启示与展望

从更长远的技术脉络审视，这项工作指出了一个重要方向：

3D生成模型能否不仅负责“生成内容”，还负责决策“资源应如何分配”？

这看似一个底层技术问题，却直接决定了3D AIGC能否从“实验室演示”走向“实际部署”。真实世界的应用永远面临预算约束，真正有价值的模型，不仅要善于生成，更要懂得在预算有限时，哪些特征最值得被保留与强调。

DeG的意义，在于首次将这种“保留什么、强调什么、简化什么”的智能决策能力，以可学习、可优化的形式赋予了模型本身。它使得3D表示不再是固定长度、固定密度的静态输出，而转变为一种能够依据需求动态调整密度、成本与质量的表现形式。

如果再向前推进一步，这项工作促使我们重新思考一个基础问题：一个物体的高精度模型和低精度模型，究竟应被视为两个独立的资产，还是同一物体在不同资源约束下的两种呈现状态？

在传统内容生产流程中，我们通常将其视为两份独立资产，因此建模、简化、LOD制作与部署被拆分为多条管线。但DeG提示了一种更本质的理解：物体本身并未改变，变化的仅是我们愿意为其分配多少表示能力与渲染预算。

如果这一视角成立，那么未来的3D生成模型学到的就不仅是“物体的外观形态”，还包括“在特定条件下，应以何种密度和成本对其进行呈现”。到那时，高模、低模、移动端版本，或许将不再是彼此割裂的独立资产，而会成为同一对象在不同应用场景下的连续状态。

从这个意义上说，DeG虽然具体落脚于3D高斯技术，但其真正有趣之处，或许在于提醒我们：未来的3D内容可能不再是一份静态的“最终答案”，而更可能是一种能够随着设备能力、任务需求与预算限制不断动态调整的、“活”的智能表示。