北京大学AI突破：精准分离玻璃透射与倒影成像技术解析

2026-05-28阅读 0热度 0

北京大学

这项由北京大学人工智能研究院（国家通用人工智能重点实验室，智能科学与技术学院）主导的研究，已于2026年5月18日以预印本形式公开，论文编号为arXiv:2605.18263。

设想一个停车场场景：你的视线落在一辆银色轿车的车窗上。车窗表面清晰地映出蓝天白云与邻近建筑的倒影，同时，你的目光又能穿透玻璃，辨识出车内的方向盘、座椅与仪表盘。对人类视觉系统而言，这种同时感知反射与透射信息的过程是瞬间完成的。然而，对于当前的AI视觉模型，这却是一个长期存在的核心挑战。

面对这类兼具反射与透射属性的半透明表面，现有神经渲染技术往往陷入困境：模型要么将玻璃视为完美镜面，过度渲染倒影以致完全遮蔽后方场景；要么将其视为完全透明的介质，导致倒影模糊失真，丧失真实感。北京大学的研究团队针对这一根本性难题，提出了名为RT-Splatting的创新框架，首次实现了对反射与透射现象的高质量同步建模。

一、玻璃问题：为什么AI总是“顾此失彼”

理解这一挑战，需要剖析现代神经渲染的基础原理。当前业界广泛采用的高效方案是“3D高斯泼溅”技术。其核心思想是将三维场景离散化为海量微小的、具有特定属性的高斯球体。渲染时，系统将这些球体投影至二维成像平面，通过分层叠加合成最终画面。

问题的症结在于“透明度”参数的语义过载。在现有模型中，单个透明度数值被迫同时表征两种截然不同的物理属性：一是该点作为几何表面的“实体存在程度”；二是该表面对光线的“阻挡能力”。

对于砖墙等不透明物体，这两种属性高度一致，单一参数尚可应对。但玻璃材质则呈现矛盾特性：作为几何表面，它坚实存在，能产生清晰锐利的镜面反射；同时，它对可见光的吸收率极低，允许光线穿透。这好比要求一个参数既要表征“实体轮廓的清晰度”，又要控制“背景的可视度”，显然超出了其表达能力。

因此，现有系统在处理车窗、橱窗时必然失真：提高透明度参数，倒影变得模糊不清；降低参数，玻璃则变为不透明屏障，完全遮挡后方物体。更严重的是，系统为补偿倒影渲染的不足，常在玻璃后方生成虚假的几何“漂浮物”。这些伪影不仅扭曲反射效果，更进一步污染了本应清晰的透射视图。

二、拆分透明度：一个参数变两个参数的关键发明

北京大学团队的突破性思路在于解耦：将原先纠缠的单一透明度参数，拆分为两个独立且分工明确的物理量。

第一个是“几何占据率”，它量化了一个表面在空间中的实体存在程度。高几何占据率意味着该表面具有明确的几何边界，能够与光线发生交互，从而为计算表面法线、粗糙度及反射信息提供基础。

第二个是“光学不透明度”，它专指材质对光线的阻挡能力。低光学不透明度意味着光线可以高效穿透，使得背景场景得以清晰呈现。

最终用于渲染时决定遮挡效果的“有效不透明度”，是这两者的乘积。这确立了一条新规则：一个表面要遮挡光线，必须同时满足“几何上存在”且“光学上阻挡”两个条件。对于玻璃，高几何占据率确保了反射计算的依据，低光学不透明度保证了透光的物理特性，两者结合便自然实现了“既反射又透射”的真实效果。

这一看似简洁的拆分，在渲染管线中引发了系统性优化。几何占据率标识了表面的存在，使得专用的高光着色器得以精确计算反射；光学不透明度则独立控制光线的透射累积。两者基于同一套场景表示并行工作，互不干扰。

整个系统构建于2D高斯泼溅框架之上，该框架将3D高斯球体优化为更贴合物体表面的2D圆盘，从而获得更稳定可靠的表面法线估计。

三、混合渲染管线：倒影和透射各走各路、最后合并

基于参数解耦的表示方法，渲染流程被设计为两条并行的计算路径，最终进行像素级融合。

第一条路径专司反射渲染。它利用几何占据率识别出光线首次击中的表面，提取其法线、粗糙度及一个可学习的“材质特征”向量。这些信息被送入一个专门的高光着色网络，结合观察视角，计算出每个像素点精确的镜面反射颜色，从而逼真还原环境倒影。

第二条路径负责体积透射渲染。它模拟光线在场景中传播时，与沿途介质相互作用的累积颜色。关键区别在于，当光线经过半透明表面时，其衰减由“有效不透明度”（几何占据率×光学不透明度）决定，而非单纯的几何占据率。这确保了背景光能正确穿透玻璃表面，不被其几何存在所不当阻挡。

此外，模型还考虑了现实世界的物理细节。例如，为模拟有色玻璃或薄膜内部的次表面散射，每个高斯元素还携带了“内部散射颜色”与“透射比”属性，用于计算光线在材质内部被吸收和散射的效果。

最后，一个可学习的“衰减因子”调制了透射光的强度。这一设计源于直观的视觉现象：当玻璃表面反射强烈时，透射的背景内容会显得暗淡；反之，反射微弱时，背景则更为清晰。该因子动态调节这一视觉平衡，使合成结果更加自然。

四、梯度门控：堵住“乱发脾气的倒影”污染背景的漏洞

即便设计了双路径渲染，训练过程中仍存在一个关键问题：复杂高光反射本身难以完美拟合，其产生的优化梯度（误差信号）可能“泄漏”到背景透射路径中。

这会导致透射渲染模块接收到错误信号，误以为需要增强某些区域的遮挡来补偿反射误差，从而在玻璃后方生成虚假的“漂浮物”几何结构。

研究团队引入了“高光感知梯度门控”机制以解决此问题。其核心思想是：在反射复杂、变化剧烈的像素区域，主动抑制流向透射路径的梯度强度；在反射简单或缺失的区域，则保持梯度畅通，确保透射路径能正常优化。

具体实现中，系统计算每个像素邻域内高光颜色的局部方差。方差越大，表明该区域反射模式越复杂、越难拟合，也越可能产生误导性梯度。此时，系统在反向传播时会施加一个随方差增大而锐减的权重，有效阻隔错误梯度对透射路径的污染。

此机制的巧妙之处在于其自适应性：它并非全局屏蔽，而是根据局部反射特性动态调节。在简单区域，背景重建仍能获得充分训练；仅在复杂高光区域，透射路径才受到保护。

五、透明度遮罩：告诉AI哪里是玻璃

参数解耦带来了新挑战：场景中任何位置都可能出现“几何占据率高但光学不透明度低”的高斯元素。由于它们对最终像素颜色贡献甚微，在训练中缺乏有效约束，容易成为四处漂移、污染场景表示的“幽灵元素”。

解决方案是引入透明度遮罩作为监督信号。团队利用现成的图像分割工具，自动生成标识半透明区域的二值掩膜。在训练时，系统额外施加一项约束：对于被掩膜标记为透明的像素，其光线首次击中的表面应具有较低的光学不透明度；反之，非透明区域则应较高。通过这项正则化，那些本应表示透明表面却四处游离的元素得以被有效约束。

需要强调的是，该遮罩仅作为辅助约束，而非将场景割裂处理的依据。系统始终对场景进行端到端的联合优化。这对于处理“背景仅能通过透明表面可见”的案例（如透过卡车前挡风玻璃观察驾驶舱）至关重要，分离优化将导致此类背景信息完全丢失。

六、训练细节：管理泡泡的生命周期

为适应双参数表示，训练过程的管理策略也进行了针对性调整。标准流程会定期重置高斯元素的不透明度以清理无效元素。在新框架中，若对两个参数同时重置，可能破坏已正确表示透明表面的元素状态。

团队采用了交替重置策略：缩短重置周期，但交替对“几何占据率”和“光学不透明度”进行重置。同时，在决定裁剪哪些“无用”元素时，判断依据是几何占据率而非光学不透明度。这确保了那些表征玻璃（高几何占据率、低光学不透明度）的元素不会被误删。

总损失函数由四部分构成：标准的RGB颜色重建损失、表面法线一致性损失、以及前述的透明度遮罩监督损失。所有实验均在单张NVIDIA RTX 4090显卡上完成。

七、实验效果：数字说话，倒影和透射同时大幅提升

研究团队在八个真实场景数据集上验证了RT-Splatting的性能，涵盖多种半透明材质与不同场景复杂度。其中六个场景来自公开数据集，两个由研究团队使用智能手机采集。

评估采用三项标准指标：PSNR（峰值信噪比，值越高越好）、SSIM（结构相似性，越接近1越好）、LPIPS（学习感知图像相似度，值越低越好）。各项指标均在整图及透明区域分别计算。

与六种基线方法相比，RT-Splatting在所有指标上均取得最优结果。在公开数据集上，其整体PSNR比次优方法高出约0.35；透明区域的PSNR优势更为显著，提升约1.87。在自采集场景上，性能优势进一步扩大。

渲染速度方面，RT-Splatting达到约33 FPS，满足实时交互需求，训练耗时与基线方法相当或更短。视觉对比显示，基线方法普遍存在两类缺陷：要么倒影模糊失真，要么玻璃变为不透明。RT-Splatting则能同步呈现清晰锐利的倒影与通透可见的背景，在不同场景中表现一致且稳定。

八、消融实验：每个设计环节的贡献

为量化每个组件的贡献，团队进行了系统的消融研究，逐一移除关键设计并观察性能衰减。

移除参数解耦设计（退化为单一参数）后，透明区域PSNR下降超过1，视觉上明显表现为倒影模糊或背景被遮挡。这证实了参数解耦是方案的核心基石。

移除联合优化策略（改为分段式训练）导致PSNR出现最大降幅。可视化结果证实，在背景仅能透过玻璃可见的场景中，驾驶舱等内容完全无法重建，凸显了端到端联合优化的必要性。

移除内部散射与吸收建模后，透射图像颜色出现明显偏差，因为材质本身的着色被错误地融入了背景颜色表示。

移除可学习衰减因子、高光感知梯度门控或透明度遮罩正则化中的任何一项，均导致PSNR下降，并伴随漂浮物伪影、背景清晰度降低或训练不稳定性增加，证明这些组件各自承担着不可或缺的辅助角色。

九、场景编辑：拆开就能改

RT-Splatting在应用层面带来一项显著优势：其分解式的场景表示天然支持高效的后期编辑。

以车窗编辑为例，用户可独立调整表面粗糙度，将清晰倒影变为磨砂质感；单独提高光学不透明度，能使玻璃瞬间变为不透明实体；仅关闭高光颜色通道，即可获得一张“去反光”的纯净透视图；甚至可以通过修改内部散射颜色，模拟为玻璃贴上彩色薄膜的效果。所有这些操作无需重新训练模型，仅需在推理时调整相应参数，为数字内容创作、影视后期及AR/VR应用提供了实用工具。

团队也明确了当前工作的局限。RT-Splatting主要针对“薄层半透明表面”，其假设光线穿透后方向不变。对于厚玻璃砖、水体等会产生显著折射的介质，或涉及复杂光线多次弹射的全局光照场景，该框架尚不能直接处理。将折射模型与多次弹射追踪纳入框架是未来的研究方向。

本质上，这项工作解决了神经渲染中的一个基础性矛盾：如何让一个表面在几何上“存在”以供反射计算，同时在光学上“缺席”以允许光线透射。传统方法因将两者耦合而无法兼顾。RT-Splatting通过解耦表示、双路径渲染及保护性训练机制，使AI首次能够像人眼一样，同步清晰地感知玻璃上的倒影与玻璃后的世界。

其实际影响广泛：从需要精准解析车窗反光与车内场景的自动驾驶视觉系统，到影视工业中对含玻璃场景的高保真三维重建，再到AR/VR中逼真材质渲染，该技术提供了一种更精确、更高效的底层解决方案。

Q&A

Q1：RT-Splatting和普通3D高斯泼溅技术的核心区别是什么？

A：核心区别在于物理参数的解耦。普通3D高斯泼溅使用单一参数混合控制表面的几何存在感与透光性，导致渲染玻璃时顾此失彼。RT-Splatting将其拆分为独立的“几何占据率”与“光学不透明度”，前者专用于反射计算，后者专用于透射控制，从而实现对两种光学现象的独立且精确的建模。

Q2：RT-Splatting训练时产生漂浮物伪影的根本原因是什么，高光感知梯度门控是怎么解决的？

A：根本原因在于拟合复杂高光反射时产生的残差误差，其梯度会错误地传播至背景透射渲染分支，误导该分支生成虚假几何结构来“补偿”误差，形成漂浮物。梯度门控机制通过分析像素邻域内高光颜色的局部变化剧烈程度，在反射复杂区域动态降低流向透射分支的梯度强度，从而隔离错误信号的污染，保护背景渲染的纯净性。

Q3：RT-Splatting能处理哪些类型的场景，有什么限制？

A：RT-Splatting擅长处理薄层半透明表面，如车窗、玻璃幕墙、塑料薄膜等，其光线穿透路径近似直线。它也能处理背景完全依赖透明表面才可见的特殊场景。目前框架的主要限制在于无法处理光线穿透后发生显著方向改变的折射现象（如厚玻璃、水体），也难以模拟依赖光线多次反弹的复杂间接光照效果。