2024精选：10亿高斯点3D浏览器渲染性能深度测评

2026-05-25阅读 0热度 0

浏览器

世界本质上是三维的。

然而，自互联网诞生以来的数十年间，受制于技术、硬件与传播介质的局限，我们一直被迫将三维世界压缩为二维形式进行表达。文字、图片、视频——这些构成了当今网络信息主体的载体，无一不是对现实世界的降维处理。这是过去时代在带宽、算力与硬件能力制约下，不得不做出的“妥协”。

3D高斯泼溅技术的出现，首次让“随手拍摄、即时重建、实时漫游”三维场景成为可能。但这项技术始终面临“最后一公里”的挑战：如何让普通用户能在浏览器中流畅地体验？

今年四月，由李飞飞教授领衔的World Labs开源了3D高斯渲染引擎Spark 2.0，迅速在技术社区引发关注。

现在，群核科技的空间智能平台Aholo将这一进程再次推进：正式开源了3D高斯浏览器Aholo Viewer，并在渲染速度与大场景加载性能上实现了对Spark 2.0的超越。它使得任何设备的浏览器都能流畅运行包含10亿以上高斯粒子的超大三维场景。

直观来说，它让你能像刷短视频一样，在浏览器中无缝浏览宏大的3D世界。如同3D版的抖音或B站，庞大的三维场景数据可以像流媒体视频一样高效传输。

从更宏观的视角看，李飞飞团队与群核科技相继推出3D高斯浏览器，标志着一个新时代的信号：互联网信息载体正经历范式跃迁，从文字、图片、视频，首次真正迈向可交互、可漫游的3D内容。三维表达将成为互联网的基础语言之一。

十亿级高斯点，移动端浏览器流畅渲染

在三维视觉领域，3D高斯泼溅是一项里程碑式的技术。

这种自2023年起在学术界迅速兴起的三维场景表示方法，将整个真实场景显式地建模为数十万至数十亿个可学习的3D高斯椭球。每个椭球具备独立的位置、形态、色彩与透明度属性，并通过可微分光栅化技术进行实时渲染。

然而，新技术的诞生并未让3D内容像二维信息一样普及。核心障碍在于：

数据体量庞大，传输困难。 一个完整的三维场景数据动辄达到数十GB。
计算负载沉重，加载缓慢。 想要流畅漫游三维模型，对终端设备的性能要求极高。

因此，Spark与Aholo Viewer共同致力于解决一个核心问题：让3D内容能像普通网页一样被流畅加载与浏览，点击一个链接，即可“步入”任何真实或虚拟的三维世界。

试想，当这一门槛被彻底踏平，将带来什么改变？普通用户拿起手机就能以3D形式记录生活点滴。商品展示将从静态图片逐步演变为用户可在手机中自由旋转审视的3D场景。线上逛博物馆、看房看车等日常体验，其3D交互将无缝融入浏览网页的过程。

那么，实际性能表现如何？根据基准测试，对于一个包含3亿高斯点的场景，在桌面端，Aholo Viewer的内存占用仅为Spark 2.0的一半，加载速度快1倍，渲染速度快3倍，且渲染效果更优。其最高可流畅加载10亿高斯点的场景，是Spark 2.0承载上限的10倍。

这背后的差异源于技术路线的选择。当前Web端3DGS渲染主流的LOD组织方式有两种，Aholo Viewer与Spark 2.0各选其一。

Spark 2.0采用的是基于高斯点的LOD树，从单个高斯点粒度自底向上进行合并，构建连续的细节层级。该方案的优点在于能逐层加载细节，理论上可使层级过渡更平滑，但实际体验中，Spark 2.0的细节切换感仍较明显。其代价是内存与显存开销较大，且后期扩展性较弱，难以灵活结合其他优化策略。

Aholo Viewer则选择了基于数据块的LOD树：先将原始3DGS数据切割为N个数据块，再为每个数据块生成不同层级的LOD，运行时以数据块为单位进行层级切换。

这一差异看似微小，效果却十分显著。

首先，内存与显存开销更可控。 系统只需为整个数据块选择层级，无需为数以万计的高斯点各自决策，内存调度的颗粒度更粗，缓存命中率更高，相比常规方案几乎不引入额外开销。

其次，可扩展性更强。 数据块构成了清晰的数据边界，未来若要扩展到城市级、街区级的超大规模场景，按区块拼接、按区块单独更新的方案，远比基于高斯点粒度的方案更为可行。

在渲染管线层面，Aholo Viewer通过多精度数据结构降低显存占用，通过缓存预计算与按需渲染通道压缩每帧GPU开销，并利用Morton排序与细节剔除优化数据访问效率。这些优化叠加，最终转化为一组用户可感知的数据：内存减半、加载快1倍、渲染快3倍、容量上限大10倍。

此外，Aholo Viewer在细节完善度上远超Spark 2.0。例如，在格式上兼容主流3DGS数据格式，并提供完整的工具链支持，包括数据格式转换、3D高斯碰撞体生成等能力。可以说，Aholo Viewer已是一个准备就绪、可供开发者直接集成并落地产品的成熟开源方案。

互联网迈向三维化

3D高斯的实时传输与查看技术障碍已被攻克，但其应用价值何在？

仅仅将3D场景放入浏览器供用户旋转观看，尚不足以让3D内容像今天的短视频一样普及。

真正的价值跃迁，发生在3D内容从“展示媒介”转变为“生产力工具”的时刻：当3D数据可以被编辑、调用、嵌入工作流、并被下游系统消费时，才实现了从“可看”到“可用”的跨越。

这里有一个有趣的对比。群核科技的Aholo平台与李飞飞团队的Marble项目存在一个显著差异。李飞飞团队侧重于通过AI生成虚拟环境，而群核除了AI生成，更侧重于对现实世界的高保真重建与模拟。相较于创意表达，它更关注如何在物理世界中创造实际价值：例如工业数字孪生、机器人仿真训练、可落地的空间设计，以及遵循物理规律的视频生成与短剧制作等场景。

因此，除了推出3D高斯浏览器，Aholo平台还提供了一整套空间智能API，旨在解决“3D内容如何被大规模生产与使用”的问题。

它开放了一整套空间能力API，主要包括：

空间重建： 拍摄一段视频，即可将物理世界1:1复刻至数字空间。
云端渲染： 无需本地GPU，支持光线追踪与全局光照，支持3DGS与网格混合渲染，并能够以视频流形式传输至各类客户端。
3D AI模型生成： 支持图像生成3D及文本生成3D模型，具备更强的材质细节表现力，可无缝接入3D内容生产流程。

除了工具，还有数据。Aholo平台将持续开放3D高斯数据集，例如曾登顶HuggingFace趋势榜的InteriorGS，以及专为机器人与智能体仿真训练设计的3D高斯语义数据集。

至此，一个完整的空间智能全链路已然形成：

重建/生成3D世界： 通过Aholo完成对真实世界的3D重建，或依据文字、草图直接生成3D场景；
编辑3D资产： 通过Aholo平台的多类API，使3D世界像网页一样可编程、可编辑；
浏览与交互： 通过Aholo Viewer，让用户在任何设备的浏览器中实时漫游超大规模3D场景。

在硬件生态共建方面，群核科技正与影石创新、禾赛科技等硬件龙头合作，推出空间重建软硬件一体化解决方案。同时，手机端App的推出，将原本仅限专业人士掌握的3D空间记录与内容创作能力，赋能给每一位普通用户。

数字文旅是典型应用方向之一。通过3DGS技术重建的文物古迹在数字世界中“复活”，访客在浏览器中即可走进数字博物馆，对文物进行360度查看与交互。

短剧制作是另一个代表性方向，助力数字化内容紧跟消费潮流。短剧制作人用手机拍摄几段照片或视频，即可在Aholo平台快速重建出高度逼真的三维“虚拟片场”；随后通过Aholo API对场景元素进行精准编辑，调整灯光与道具布局。

当3D浏览器普及，3D内容进入互联网这一最大的分发管道，促使更多贴近真实世界的3D数据形成循环，“更多人观看3D内容，更多3D内容被生产，更多AI训练数据被积累，更智能的3D模型被创造，进而吸引更多人观看3D内容”——这个增长飞轮才能真正转动起来。

这也正是为什么，不能仅将3DGS浏览器的进展视为前端工程的进步，它是通往构建世界模型的一个关键入口。

回到开篇的观点——世界是三维的。

过去几十年，互联网迫使我们将其压缩成二维。像Aholo Viewer这样的3D高斯浏览器，仅仅是一个开端：在可预见的未来，越来越多的网页内容、AI应用与机器人感知系统，将重新与三维世界对齐。

数字世界的内容向3D进化，与真实世界的认知结构对齐，是我们迈向物理智能与通用智能的关键一步。

空间智能，终将如同今天的搜索、地图和短视频一样，成为下一代互联网的基础设施与核心能力。

2024精选：10亿高斯点3D浏览器渲染性能深度测评

十亿级高斯点，移动端浏览器流畅渲染

互联网迈向三维化

相关阅读

最新教程

最新资讯