SIGGRAPH 2026精选：VAST与清华3D生成新范式深度测评，算力优化新突破

2026-05-21阅读 0热度 0

Graph

审视当前主流的3D生成技术路径，一个共通的瓶颈正逐渐浮现。

对于3D AIGC研究者，模型在“生成单一物体”上已愈发成熟，但输出的复杂度往往固化，缺乏动态调节能力。图形学与渲染专家则更关注核心问题：3D表示能否将有限的计算资源，精准投放到对视觉质量影响最大的区域。来自游戏、XR和交互内容行业的开发者则进一步追问：同一份3D资产，能否直接衍生出高保真与轻量化版本，而非为每个版本重复制作。

这些诉求背后，直指一个根本性矛盾：

现有多数3D生成方法，虽能产出结果，却尚未掌握“资源智能分配”的核心能力。

以3D高斯表示为例，何处应密集分布高斯球以刻画细节，何处可稀疏处理以节省算力；哪些区域需要更强的表示能力，哪些区域仅需近似表达——现有方法大多未能自主决策。它们更像在用固定模板生成3D，而非依据物体自身的几何与纹理复杂度，自适应地决定“高斯球的数量与布局”。

SIGGRAPH 2026收录的论文《Generative 3D Gaussians with Learned Density Control》，正是为了突破这一瓶颈。

论文：《Generative 3D Gaussians with Learned Density Control》
论文链接：https://arxiv.org/abs/2605.16355

这项由VAST与清华大学合作的研究，提出了一种名为Density-Sampled Gaussians（DeG）的新型3D表示范式。其目标并非生成固定数量的高斯球，而是让模型自主习得一种“自适应采样策略”：在复杂区域增加采样密度，在简单区域降低密度，且该策略可直接从渲染误差中端到端学习。

这看似是工程优化，实则至关重要。它决定了3D生成结果最终是一个“静态且笨重的输出”，还是一个能够按渲染预算伸缩、按部署需求调整、按应用场景适配的智能3D表示。

从启发式规则到可学习的密度策略

3D高斯表示近年备受青睐，核心在于其在视觉质量与计算效率间取得了优异平衡。它摆脱了传统网格对复杂拓扑的依赖，同时保持了高质量渲染能力。然而，3D高斯优化过程中的一项关键优势——空间自适应密度控制，恰恰是Diffusion等生成模型最难继承的部分。

在传统3D高斯拟合中，算法会持续执行密集化与剪枝操作。简言之：若局部区域拟合不足，则“补充”高斯球；若某些高斯球贡献微弱，则将其“删除”。

这套机制之所以有效，源于真实3D物体的非均匀复杂度。边缘轮廓、薄壁结构、高频纹理区域需要更强的表示能力；而大块平整、颜色渐变的区域，则无需堆积过多高斯球。

问题在于，这套“增删”流程本质是离散的、基于启发式规则的、不可微分的。

这对单个物体的优化拟合有效，但其不可微的特性，使其难以直接整合到需要前馈生成、从图像直接预测3D高斯的模型中。因此，现有方法多采取折衷方案，采用固定结构：

将高斯球绑定在体素网格上；
为每个体素分配固定数量的高斯球；
为2D图像的每个像素预测固定数量的高斯球。

这些做法降低了训练难度，但代价明确：丧失了3D高斯最核心的灵活性优势。

DeG核心：将坐标回归转化为概率密度采样

DeG的核心创新，是将“高斯球中心位置预测”从一个固定的回归任务，转变为从概率密度函数中采样的问题。

换言之，模型不再直接输出一组固定坐标，而是先学习一个定义在3D空间上的概率密度分布。该分布直观反映了空间各位置“值得放置高斯球”的重要性，实现了空间自适应的智能密度控制。

在推理阶段，模型直接从此分布中采样出指定数量的高斯球，构成最终的3D高斯资产。

这一范式转换，为表示方法赋予了两种关键能力。

能力一：任意数量采样

由于模型学习的是概率分布而非固定长度序列，推理时可根据实际需求，采样任意数量的高斯球。面向移动端、实时预览或带宽受限场景，可减少采样；面向高保真渲染、离线输出或复杂场景，则可增加采样。

这意味着，无需为不同分辨率重复训练模型，同一模型与表示即可根据预算动态调整输出规模。

考虑到3D高斯的渲染成本，灵活控制高斯球数量对实际部署至关重要。多数应用追求的不是绝对极限画质，而是在给定设备与延迟预算下，获得最适宜的3D资产。

能力二：非均匀自适应采样

DeG并非在空间内均匀撒点，而是在训练过程中，根据渲染重建损失，自动将更多采样预算分配给几何复杂、纹理高频的区域。例如，薄结构、尖锐边缘、局部几何突变处会获得更高密度；而在平坦、规则的区域，则放置较少高斯球。

这标志着模型开始具备一种“按需分配，重点投入”的智能。

由此引出一个核心算法问题：这种空间智能密度控制策略，应如何通过梯度下降有效学习？

策略学习：从渲染误差反推采样价值

初次接触此问题，可能会设想：既然最终目标是优化渲染损失，直接反向传播即可。

但核心难点在于，高斯球位置是采样得到的。采样操作本身非连续，因此渲染误差无法像常规神经网络那样，顺畅地反向传播至“空间密度分布”参数。

也就是说，模型虽知渲染结果何处出错，却难以判断：应提高哪些区域的采样概率，又该降低哪些区域的概率。

本论文的关键突破，在于为此问题构建了一个可训练的梯度信号。作者称之为渲染损失贡献梯度，其本质是一种强化学习策略梯度方法在3D高斯采样上的应用。

思路直观：假设从当前密度分布中采样出一批高斯球。若移除其中某一个，观察渲染损失如何变化？

若移除后损失显著上升，说明该高斯球至关重要，它有效表示了该区域。系统则应提升类似位置未来的采样概率。

反之，若移除后影响甚微或损失下降，则说明此类位置采样价值不高，其概率应降低。

更通俗地讲，该梯度在回答：“这个被采样到的高斯球，其存在是否带来了正向收益？”

这是一种典型的策略学习视角。采样位置如同“决策动作”，渲染误差提供“奖励信号”。对降低误差有贡献的位置获得奖励；贡献微弱的位置则奖励减少甚至受到惩罚。

数学上，此思路与策略梯度方法一致。作者进一步将其表述为差分奖励形式，即比较“保留该高斯球”与“移除该高斯球”时的渲染损失差值。该差值精确刻画了该高斯球的边际贡献。

更重要的是，这并非经验性技巧，而是具备严谨数学推导。论文从“渲染损失期望”出发，推导了其对密度分布参数的梯度，最终得到可用的优化信号。换言之，作者是在用梯度下降直接优化高斯球的分布与采样策略。这与传统3D高斯中基于人工规则的剪枝、密化，目标相似但方法论截然不同。

高效计算的实现方案

若严格计算每个高斯球的“留一”贡献，计算代价极高，需反复移除每个高斯球并重新渲染。

随之而来的问题是：目标定义清晰后，如何高效计算？作者针对L1渲染损失，给出了一种精确且高效的计算方法。

简言之，对于L1渲染项，正常渲染过程中已可获取关键中间值，仅需少量额外计算即可得到所需贡献值，无需反复删除与重渲染。具体计算流程参见论文伪代码。

至此，原本依赖启发式规则的密集化/稀疏化过程，被转化为一个可微、可学习、支持批量训练的空间密度优化过程。这项工作首次将3D高斯的密度控制，实现为端到端的优化问题。

应用价值：从静态资产到动态可调表示

从应用视角审视，该方法的价值更为直接。

首先，它使3D资产真正具备按预算弹性伸缩的能力。

以往方法生成完成后，输出规模基本固定。需轻量化时，往往只能进行后处理压缩；需更高质时，则常需重新训练或拟合，或从一开始就承载高额表示成本。

而在DeG中，模型输出的是一个“可采样的密度场”。同一对象可自然衍生出不同规模的高斯版本。对于移动端、实时交互等场景，可采样更轻量版本；对于影视级展示、数字藏品等任务，则可提高采样预算，获得更密集、更精细的版本。

其次，它让3D表示开始真正理解并响应局部复杂度。

许多固定结构方法的问题，不在于无法生成高斯球，而在于不知应将预算优先分配给何处。结果常是简单区域过度堆砌，复杂区域反而不足。DeG的非均匀采样恰恰相反，将容量集中分配给细节、边界、薄结构和高误差区域。这在低预算场景下尤为关键。当总高斯球数量有限时，“如何分配”比“总量多少”更重要。论文实验表明，这种空间智能密度控制的收益，在少量高斯球区间尤为显著。换言之，预算越紧张，该方法的优势越突出。

进一步看，此能力对多类场景至关重要：

对游戏与XR而言，意味着同一生成模型能更灵活地适配不同设备性能与实时性约束。
对3D内容平台而言，意味着资产可自然提供多档质量版本，无需为每档单独制作，实现了类似LOD（细节层次）的自动化效果。
对AIGC工作流而言，意味着生成系统不单“输出结果”，更提供可调、易部署的表示。
对机器人仿真、数字孪生与交互式AI环境而言，则意味着有限计算资源可优先用于影响几何感知与渲染质量的关键区域。

论文展示了代表性结果。作为一个单图生成3D的框架，DeG在重建与生成任务上均表现强劲。在相近的高斯球预算下，其视觉质量优于TRELLIS、UniLat3D等方法；而在达到相近视觉质量时，DeG所需的高斯球数量显著更少。论文指出，在某些场景下，达到与TRELLIS相当质量时，所需高斯球数量不及后者一半。

深远影响：重新思考3D内容的形态

从更长的技术脉络看，这项工作指出了一个重要方向：3D生成模型能否不只负责“生成内容”，还负责决策“资源应如何分配”？

这看似是底层问题，却直接决定了3D AIGC能否从“演示效果”走向“实际部署”。真实世界部署永远面临预算约束，有价值的模型不仅要会生成，更要懂得在有限预算下，何种信息最值得保留与强化。

DeG的意义，在于首次将这种“保留何物、强调何处、简化何方”的能力，以可学习、可优化的方式赋予模型自身。它使3D表示不再是固定长度、固定密度的静态输出，而成为一种能够按需调整密度、成本与质量的动态表达。

若再向前推演，这项工作促使我们重新思考一个基础问题：一个物体的高模与低模，应被视为两份独立资产，还是同一物体在不同资源约束下的两种呈现状态？

在传统流程中，我们通常将其视为独立资产，因此建模、简化、LOD制作与部署被拆分为多条链路。但DeG提示了一种更自然的理解：物体本身未变，变化的仅是我们愿意为其分配多少表示能力与渲染预算。

若此视角成立，未来3D生成模型学到的就不只是“形态为何”，还包括“在何种条件下，应以何种密度、何种成本被呈现”。届时，高模、低模、移动端版本，或许将不再是彼此割裂的资产，而成为同一对象在不同场景下的连续状态。

从这个意义上看，DeG虽聚焦于3D高斯，但其真正启示在于：未来的3D内容或许不再是一份静态答案，而更可能是一种能随设备、任务与预算动态调整的“活表示”。