2024精选:10亿高斯点3D浏览器渲染性能深度测评

2026-05-25阅读 0热度 0
浏览器

世界本质上是三维的。

然而,自互联网诞生以来的数十年间,受制于技术、硬件与传播介质的局限,我们一直被迫将三维世界压缩为二维形式进行表达。文字、图片、视频——这些构成了当今网络信息主体的载体,无一不是对现实世界的降维处理。这是过去时代在带宽、算力与硬件能力制约下,不得不做出的“妥协”。

3D高斯泼溅技术的出现,首次让“随手拍摄、即时重建、实时漫游”三维场景成为可能。但这项技术始终面临“最后一公里”的挑战:如何让普通用户能在浏览器中流畅地体验?

今年四月,由李飞飞教授领衔的World Labs开源了3D高斯渲染引擎Spark 2.0,迅速在技术社区引发关注。

现在,群核科技的空间智能平台Aholo将这一进程再次推进:正式开源了3D高斯浏览器Aholo Viewer,并在渲染速度与大场景加载性能上实现了对Spark 2.0的超越。它使得任何设备的浏览器都能流畅运行包含10亿以上高斯粒子的超大三维场景。

直观来说,它让你能像刷短视频一样,在浏览器中无缝浏览宏大的3D世界。如同3D版的抖音或B站,庞大的三维场景数据可以像流媒体视频一样高效传输。

从更宏观的视角看,李飞飞团队与群核科技相继推出3D高斯浏览器,标志着一个新时代的信号:互联网信息载体正经历范式跃迁,从文字、图片、视频,首次真正迈向可交互、可漫游的3D内容。三维表达将成为互联网的基础语言之一。

十亿级高斯点,移动端浏览器流畅渲染

在三维视觉领域,3D高斯泼溅是一项里程碑式的技术。

这种自2023年起在学术界迅速兴起的三维场景表示方法,将整个真实场景显式地建模为数十万至数十亿个可学习的3D高斯椭球。每个椭球具备独立的位置、形态、色彩与透明度属性,并通过可微分光栅化技术进行实时渲染。

然而,新技术的诞生并未让3D内容像二维信息一样普及。核心障碍在于:

  • 数据体量庞大,传输困难。 一个完整的三维场景数据动辄达到数十GB。

  • 计算负载沉重,加载缓慢。 想要流畅漫游三维模型,对终端设备的性能要求极高。

因此,Spark与Aholo Viewer共同致力于解决一个核心问题:让3D内容能像普通网页一样被流畅加载与浏览,点击一个链接,即可“步入”任何真实或虚拟的三维世界。

试想,当这一门槛被彻底踏平,将带来什么改变?普通用户拿起手机就能以3D形式记录生活点滴。商品展示将从静态图片逐步演变为用户可在手机中自由旋转审视的3D场景。线上逛博物馆、看房看车等日常体验,其3D交互将无缝融入浏览网页的过程。

那么,实际性能表现如何?根据基准测试,对于一个包含3亿高斯点的场景,在桌面端,Aholo Viewer的内存占用仅为Spark 2.0的一半,加载速度快1倍,渲染速度快3倍,且渲染效果更优。其最高可流畅加载10亿高斯点的场景,是Spark 2.0承载上限的10倍

这背后的差异源于技术路线的选择。当前Web端3DGS渲染主流的LOD组织方式有两种,Aholo Viewer与Spark 2.0各选其一。

Spark 2.0采用的是基于高斯点的LOD树,从单个高斯点粒度自底向上进行合并,构建连续的细节层级。该方案的优点在于能逐层加载细节,理论上可使层级过渡更平滑,但实际体验中,Spark 2.0的细节切换感仍较明显。其代价是内存与显存开销较大,且后期扩展性较弱,难以灵活结合其他优化策略。

Aholo Viewer则选择了基于数据块的LOD树:先将原始3DGS数据切割为N个数据块,再为每个数据块生成不同层级的LOD,运行时以数据块为单位进行层级切换。

这一差异看似微小,效果却十分显著。

首先,内存与显存开销更可控。 系统只需为整个数据块选择层级,无需为数以万计的高斯点各自决策,内存调度的颗粒度更粗,缓存命中率更高,相比常规方案几乎不引入额外开销。

其次,可扩展性更强。 数据块构成了清晰的数据边界,未来若要扩展到城市级、街区级的超大规模场景,按区块拼接、按区块单独更新的方案,远比基于高斯点粒度的方案更为可行。

在渲染管线层面,Aholo Viewer通过多精度数据结构降低显存占用,通过缓存预计算与按需渲染通道压缩每帧GPU开销,并利用Morton排序与细节剔除优化数据访问效率。这些优化叠加,最终转化为一组用户可感知的数据:内存减半、加载快1倍、渲染快3倍、容量上限大10倍。

此外,Aholo Viewer在细节完善度上远超Spark 2.0。例如,在格式上兼容主流3DGS数据格式,并提供完整的工具链支持,包括数据格式转换、3D高斯碰撞体生成等能力。可以说,Aholo Viewer已是一个准备就绪、可供开发者直接集成并落地产品的成熟开源方案。

互联网迈向三维化

3D高斯的实时传输与查看技术障碍已被攻克,但其应用价值何在?

仅仅将3D场景放入浏览器供用户旋转观看,尚不足以让3D内容像今天的短视频一样普及。

真正的价值跃迁,发生在3D内容从“展示媒介”转变为“生产力工具”的时刻:当3D数据可以被编辑、调用、嵌入工作流、并被下游系统消费时,才实现了从“可看”到“可用”的跨越。

这里有一个有趣的对比。群核科技的Aholo平台与李飞飞团队的Marble项目存在一个显著差异。李飞飞团队侧重于通过AI生成虚拟环境,而群核除了AI生成,更侧重于对现实世界的高保真重建与模拟。相较于创意表达,它更关注如何在物理世界中创造实际价值:例如工业数字孪生、机器人仿真训练、可落地的空间设计,以及遵循物理规律的视频生成与短剧制作等场景。

因此,除了推出3D高斯浏览器,Aholo平台还提供了一整套空间智能API,旨在解决“3D内容如何被大规模生产与使用”的问题。

它开放了一整套空间能力API,主要包括:

  • 空间重建: 拍摄一段视频,即可将物理世界1:1复刻至数字空间。

  • 云端渲染: 无需本地GPU,支持光线追踪与全局光照,支持3DGS与网格混合渲染,并能够以视频流形式传输至各类客户端。

  • 3D AI模型生成: 支持图像生成3D及文本生成3D模型,具备更强的材质细节表现力,可无缝接入3D内容生产流程。

除了工具,还有数据。Aholo平台将持续开放3D高斯数据集,例如曾登顶HuggingFace趋势榜的InteriorGS,以及专为机器人与智能体仿真训练设计的3D高斯语义数据集。

至此,一个完整的空间智能全链路已然形成:

  • 重建/生成3D世界: 通过Aholo完成对真实世界的3D重建,或依据文字、草图直接生成3D场景;

  • 编辑3D资产: 通过Aholo平台的多类API,使3D世界像网页一样可编程、可编辑;

  • 浏览与交互: 通过Aholo Viewer,让用户在任何设备的浏览器中实时漫游超大规模3D场景。

在硬件生态共建方面,群核科技正与影石创新、禾赛科技等硬件龙头合作,推出空间重建软硬件一体化解决方案。同时,手机端App的推出,将原本仅限专业人士掌握的3D空间记录与内容创作能力,赋能给每一位普通用户。

数字文旅是典型应用方向之一。通过3DGS技术重建的文物古迹在数字世界中“复活”,访客在浏览器中即可走进数字博物馆,对文物进行360度查看与交互。

短剧制作是另一个代表性方向,助力数字化内容紧跟消费潮流。短剧制作人用手机拍摄几段照片或视频,即可在Aholo平台快速重建出高度逼真的三维“虚拟片场”;随后通过Aholo API对场景元素进行精准编辑,调整灯光与道具布局。

当3D浏览器普及,3D内容进入互联网这一最大的分发管道,促使更多贴近真实世界的3D数据形成循环,“更多人观看3D内容,更多3D内容被生产,更多AI训练数据被积累,更智能的3D模型被创造,进而吸引更多人观看3D内容”——这个增长飞轮才能真正转动起来。

这也正是为什么,不能仅将3DGS浏览器的进展视为前端工程的进步,它是通往构建世界模型的一个关键入口。

回到开篇的观点——世界是三维的。

过去几十年,互联网迫使我们将其压缩成二维。像Aholo Viewer这样的3D高斯浏览器,仅仅是一个开端:在可预见的未来,越来越多的网页内容、AI应用与机器人感知系统,将重新与三维世界对齐。

数字世界的内容向3D进化,与真实世界的认知结构对齐,是我们迈向物理智能与通用智能的关键一步。

空间智能,终将如同今天的搜索、地图和短视频一样,成为下一代互联网的基础设施与核心能力。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策