CMU与纽约大学联手：神经网络潜在变量识别难题破解深度解析

2026-05-15阅读 0热度 0

神经网络

这项由卡内基梅隆大学、穆罕默德·本·扎耶德人工智能大学（MBZUAI）与纽约大学合作的研究，其成果发表于国际学习表征会议（ICLR 2026），论文预印本编号为arXiv:2604.17568，可供查阅。

数据背后的潜在世界

相机传感器记录的不是物体本身，而是光线经过复杂物理过程后形成的数字投影。这如同透过毛玻璃观察，你只能看到模糊的影像，而非背后的真实结构。那么，仅凭这组投影数据，能否逆向还原出玻璃另一侧的真实图景？

这正是机器学习中一个基础且困难的核心问题：我们观测到的数据X，被建模为一个未知函数g作用于潜在变量Z的结果，即X = g(Z)。其中，Z代表数据生成的本质驱动因素（如物体的几何形状、表面属性），g是复杂的生成过程（如渲染、编码），而X是我们唯一能获取的表征。问题的挑战在于，g和Z均未知，如同仅凭成品面包去反推面粉配比与烘焙工艺。

传统方法依赖强假设来约束问题，例如假设g为线性函数，或潜在变量彼此独立。这些假设虽在理论上简洁，但在实际复杂数据中往往难以成立，限制了模型的泛化能力。为此，研究团队转向了一个更务实的方向：在最小化先验假设的前提下，探究我们能够稳定恢复出潜在结构的哪些部分。基于此，他们提出了“多样性字典学习”框架。

字典学习：从线性组合到非线性映射

理解新框架，需从经典“字典学习”概念入手。其核心是将观测数据视为一组基本元素（“字典原子”）的合成产物，如同文章由词汇组合而成。

传统稀疏字典学习的关键前提是线性组合假设，即观测X可表示为字典矩阵D与潜在编码Z的线性加权和。这一假设简化了计算，但可能与深度神经网络中普遍存在的非线性变换（如ReLU激活）的本质相悖。当前机械可解释性领域广泛采用的稀疏自编码器（SAE）便基于此线性假设，这引发了一个根本性质疑：用线性模型去解析一个高度非线性的表示空间，其可靠性存疑。

本研究转向更一般的非线性情形，允许g为任意光滑可逆函数。这带来了严重的辨识性问题：理论上存在无限多组(g, Z)能生成相同的观测数据X。然而，研究团队发现，突破点在于关注变量间的“结构关系”，而非具体的函数数值。

结构辨识：雅可比矩阵的支撑模式

团队将焦点转向潜在变量与观测变量之间的“连接关系”，其数学描述是雅可比矩阵的支撑结构。

简言之，雅可比矩阵刻画了每个潜在变量Z_j的微小扰动，会影响到哪些观测变量X_i。若存在影响，则视两者间存在一条连接。将所有连接绘制成图，便得到了变量间的依赖结构。该结构是“非参数”的，它不关心函数的具体形式，只关注“谁影响谁”这一更本质的拓扑关系。研究团队将其形式化定义为雅可比矩阵中非零元素的位置集合。

例如，假设三个潜在变量(Z₁, Z₂, Z₃)生成三个观测变量(X₁, X₂, X₃)。其中，Z₁和Z₂共同决定X₁和X₂，而X₃受所有三个潜在变量影响。用矩阵表示这些连接关系，星号代表有连接，空白代表无连接，这就构成了依赖结构。正是这个结构，成为了理论构建的基石。

集合论分析：用韦恩图解构潜在空间

研究的核心洞察源于一个集合论问题：不同观测变量组背后对应的潜在变量集合，能揭示什么信息？

考虑两组观测变量X_K和X_V，其背后的潜在因素集合分别为I_K和I_V。这两个集合的关系可通过集合运算来剖析：交集I_K ∩ I_V代表共享的公共因子；对称差I_K △ I_V代表各自独有的因子；而差集I_K \ I_V和I_V \ I_K则分别对应K独有和V独有的部分。

这类似于用韦恩图分析两个群体的偏好：重叠部分是共同爱好，非重叠部分则体现了各自的特质。

基于此，论文提出了“集合论不确定性”这一核心概念。它定义了当两个模型在观测数据上表现完全相同时，其内部潜在变量集合必须满足的约束条件。具体而言，它保证了三点：1）公共因子不能表示为独有因子的函数（共享特征与特有特征独立）；2）独有因子也不依赖于公共因子（独立性是双向的）；3）K独有的因子不能被V独有的因子解释，反之亦然（专属特征彼此分离）。这意味着，该方法学到的表示中，负责多个观测的“公共因子”与仅负责单个观测的“专属因子”将被清晰分离，避免相互污染。

从集合保证到实用推论

基于“集合论不确定性”，研究团队推导出三种具有直接应用价值的推论，对应不同的学习场景。

对象中心化解耦： 描述某一对象（如图片中“椅子”的像素）的所有潜在因素，不会受到描述另一对象（如“桌子”的像素）的独有因素影响。这确保了不同对象的表示模块相互独立，是实现“以对象为中心的表示学习”的关键。

个体中心化解耦： 某一观测集合独有的潜在因素，完全独立于另一观测集合的任何因素（包括公共部分）。这对于“域适应”任务至关重要，它能将特定领域的特征与跨域通用特征干净地分离。

共享中心化解耦： 公共潜在因素不能被任何一方独有的因素所解释。这保证了跨域或跨任务的通用知识能被纯净、独立地抽取，极大增强模型的迁移与泛化能力。

更进一步，研究揭示了连锁效应：若多个观测变量的潜在支撑集能覆盖整个潜在空间，则上述集合论保证可扩展至韦恩图中的每一个“原子区域”。以三个观测变量为例，其潜在支撑集可形成包含七个独立原子区域的韦恩图，实现区块级别的可辨识性。

理论基石：温和条件下的可辨识性保证

上述所有保证，仅需非常温和的条件即可成立。论文的第一个主要定理（定理1）给出了精确的充分条件。

第一，潜在变量Z的概率密度需处处为正。这是一个标准的技术性假设，仅要求潜在变量取值不受极端限制。

第二，稀疏性正则化：在模型训练中，要求学得模型的雅可比矩阵非零元素数量，不超过真实生成模型的非零元素数量。即，在训练时对连接数量施加惩罚，引导模型寻找最简洁的依赖结构。

关键点在于：此稀疏条件是训练时的正则化手段，而非对真实数据生成过程的假设。真实世界的数据生成过程可以非常复杂、连接密集。我们只是在训练时引入了一种“奥卡姆剃刀”式的偏好——当多个模型都能拟合数据时，优先选择连接最简洁的那个。这与因果发现中的“最小性”原则一致。

此外，需要一个关于“充分非线性”的技术假设（假设1），它确保雅可比矩阵的变化足够丰富，能区分真实因果连接与虚假关联。对于平滑函数和连续分布，该条件通常自然满足。

第二个定理（定理2）更进一步：在相同条件下，不仅集合关系，整个依赖结构本身（允许对潜在变量进行重排）也是可辨识的。这意味着，训练收敛后，模型学到的“影响关系图”与真实世界的连接图谱在结构上一致。

从区块到元素：多样性条件实现完全辨识

前述结论是“区块级别”的。在更强的结构条件下，研究团队证明了可以实现元素级可辨识性（定理3），即识别出每一个单独的潜在变量。

所需的额外条件称为“足够多样性”（假设2）。其核心是要求不同观测变量的连接模式存在差异。例如，形式一要求：存在某个潜在变量Z_i，它是某个观测变量X_k“独有”的贡献者。形式二则要求：Z_i被多数观测变量共享，但却被某个特定的观测变量排除在外。

与传统的“结构稀疏”假设相比，“足够多样性”条件宽泛得多。它不要求整体连接稀疏，即便在近乎全连接的图中，只要连接模式存在差异，条件就可能满足。这是一个关于“异质性”的要求，与连接的“数量”无关。

团队推测，“足够多样性”很可能是在无分布和函数形式假设下，实现元素级辨识的必要条件。因为韦恩图的原子区域是结构的最小单元，而“足够多样性”确保了每个潜在变量都对应一个独立的原子区域。

实验验证：理论与实践的对接

为验证理论，团队设计了两组实验。

合成数据实验： 使用带Leaky ReLU激活的多层感知机（MLP）生成非线性观测数据，以变分自编码器（VAE）为骨干模型，并在损失函数中加入依赖稀疏正则化。潜在变量设为3到5个，观测变量分为X_K和X_V两组。

为验证集合论可辨识性，他们计算了潜在变量不同子集间的R²分数。R²越低，表示解耦越好。结果显示，交集与对称差之间、以及两个互补部分之间的R²分数均显著低于随机基线，且在不同维度设置下稳定，证实了理论保证。

对于元素级识别，他们分别构建了满足与违反“足够多样性”条件的数据集，用平均相关系数（MCC）评估恢复效果。结果明确显示：仅当满足多样性条件时才能获得高MCC，全连接时MCC显著偏低，直接验证了定理3。

视觉数据实验： 在三个主流解耦表示学习基准上测试：Cars3D（汽车多视角图像）、Shapes3D（几何体多属性图像）和更复杂的MPI3D（机械臂图像）。

团队将依赖稀疏正则化（作用于雅可比矩阵的L1正则）集成到三种主流生成模型中：基于VAE的FactorVAE、基于GAN的DisCo，以及基于扩散模型的EncDiff。并与两种基线对比：无正则化的原模型，及在潜在变量Z上施加L1正则（潜在稀疏）的版本。

评估使用FactorVAE分数和DCI解耦分数。结果显示，在大多数数据集和模型组合中，加入依赖稀疏正则化后性能均有提升，且通常优于潜在稀疏正则化。例如在Shapes3D上，EncDiff加入依赖稀疏后，DCI分数从0.901提升至0.947，FactorVAE分数达到1.0。这证实了依赖稀疏提供了正确的归纳偏置。

可视化结果更具说服力。通过固定其他维度、仅扰动单一潜在维度，可清晰观察到每个维度控制的视觉属性。在Fashion数据集上，三个维度分别对应性别、鞋跟高度和上身宽度。在Shapes3D上，四个维度分别控制墙面角度、墙面颜色、物体形状和物体颜色。“潜在变量替换”实验（将源图像的特定语义属性替换为目标图像的值）表明，依赖稀疏正则化能实现精准替换且副作用最小。

对机械可解释性的启示：超越SAE的线性框架

论文深入探讨了该框架对机械可解释性，尤其是稀疏自编码器（SAE）的启示。

SAE基于线性叠加假设，认为大语言模型的内部表示是许多“特征”的稀疏线性组合。该假设虽在数学上简便，并发现了一些可解释特征，但存在两个深层问题：第一，线性假设会引入系统性偏差，因为真实神经表示空间是非线性的。第二，在潜在向量上施加稀疏性，迫使模型使用极高维度（可达百万级）的稀疏向量，易导致“特征分裂”（一个概念被拆解）和“特征吸收”（一个特征混合多个概念），反而损害可解释性。

多样性字典学习提供了一条原则性替代路径：以依赖稀疏（雅可比矩阵稀疏）替代潜在稀疏，以非线性可辨识框架替代线性假设。这不仅在理论上规避了线性约束，实验也表明依赖稀疏比潜在稀疏更能恢复有意义的表示。

在新增实验中，团队在GPT-2-Small模型上比较了雅可比稀疏自编码器（JSAE）与两种主流SAE变体在“死亡特征”（从不激活的维度）数量上的表现。结果显示，JSAE的死亡特征数量（62个）远少于Top-K SAE（439个）和Batch Top-K SAE（207个），表明依赖稀疏能在保持更多活跃、有意义特征的同时完成分析。

这项研究的根本贡献，在于为一个本质开放的问题提供了部分确定性的答案。面对复杂、非线性、难以验证的真实数据生成过程，追求完全辨识往往需要不切实际的强假设。团队转而探究一个更实际的问题：即便无法完整还原隐藏世界，我们至少能可靠地还原哪些部分？

他们的答案是：那些通过集合运算（交、并、补、对称差）定义的结构性关系，以及整个“谁影响谁”的依赖图谱，在非常温和的条件下即可被可靠辨识。而实现这一目标的实践代价，仅仅是在训练中增加一项鼓励连接简洁的正则化项。该正则化可无缝集成到任何可微分的生成模型中，从VAE、GAN到扩散模型。

这体现了一种务实的科学范式：不寻求万能钥匙，而是清晰界定可解问题的边界，并锻造一把在真实场景中切实有效的工具。

Q&A

Q1：多样性字典学习与稀疏自编码器（SAE）的核心区别是什么？

A：核心区别在于施加稀疏约束的对象不同。SAE在潜在变量Z的激活值上施加稀疏约束，要求其大多为零，这常导致需要极高维度并引发特征吸收、死亡特征等问题。多样性字典学习则在雅可比矩阵（依赖结构）上施加稀疏约束，鼓励减少不必要的连接，而不要求激活值本身稀疏。此外，SAE基于线性生成假设，而新框架支持任意非线性过程，理论保证更为通用。

Q2：“足够多样性”条件与稀疏性假设有何本质不同？为何说多样性不等于稀疏？

A：稀疏性假设要求依赖结构本身是稀疏的，即大多数潜在变量与观测变量间无连接。而“足够多样性”条件只要求不同观测变量的潜在支撑集之间存在差异性，例如某个观测变量有独有潜在因素，或某个因素被多数变量共享但被某个排除。即使在近乎全连接（极不稀疏）的情形下，只要连接模式存在差异，该条件就可能成立。因此，它是一个关注连接“模式差异”而非“数量多少”的、比稀疏性宽泛得多的条件。

Q3：依赖稀疏正则化在大型模型中计算开销大吗？有何可行的实现方案？

A：计算完整雅可比矩阵确有开销，但有两种常用策略可显著降低成本。第一，可先利用潜在稀疏等方法识别出活跃的潜在维度子集，仅对该子集计算雅可比矩阵。对于Transformer等架构，活跃维度通常远小于总维度。第二，对于具有残差连接、注意力等特定结构的模型，其相关雅可比矩阵块存在闭合形式的高效分解，可通过少量矩阵乘法近似。实际测试表明，加入依赖稀疏正则化后的训练速度约为标准L1正则化的一半，对于常规大语言模型训练，此代价是可接受的。