ICLR 2026精选：北大团队基于最优传输的时序预测模型深度测评

2026-05-16阅读 0热度 0

在时间序列预测领域，一个长期被忽视的核心矛盾在于：模型架构飞速演进，从RNN到Transformer再到各类频域与混合模型层出不穷，但几乎所有模型的训练都固守同一类损失函数——以均方误差（MSE）为代表的逐点误差度量。

这造成了方法论上的隐性停滞：研究资源过度向模型表达能力倾斜，而对损失函数背后关键的统计假设，缺乏根本性的审视与革新。

逐点误差损失的核心假设是什么？它默认，在给定历史序列的条件下，未来各时间步的预测目标是彼此独立的。然而，这一假设与时间序列数据真实的生成机制存在根本冲突。现实世界的时间序列由随机过程演化而来，前后时刻之间存在显著的自相关性。将多步预测强行拆解为一组独立的回归任务，必然在损失函数中引入结构性偏差，导致模型难以捕捉序列的整体形态、内在相关性以及复杂的条件依赖。

针对这一深层矛盾，北京大学林宙辰团队进行了系统性剖析，并提出了DistDF：一种通过联合分布对齐来训练预测模型的新型损失函数。这项工作的价值，不仅在于为时间序列预测提供了新工具，更在于对序列建模中“我们究竟应该优化什么”这一根本问题，给出了一个范式性的新答案。

独立性假设：理论与实证的双重失效

当前，时间序列预测的主流方法普遍采用均方误差（MSE）作为损失函数：

$$\mathcal{L}_{\text{MSE}} = \|\mathbf{y} - g_\theta(\mathbf{x})\|^2=\sum_{t=1}^\mathrm{T}\left(y_t-g_{\theta,t}(\mathbf{x})\right)$$

这个简洁的公式背后，隐含着一个强烈的独立性假设：给定历史序列后，未来各时间点的观测值彼此独立。但真实数据中，标签序列通常存在显著的自相关性。因此，MSE的独立性假设与数据生成机制相悖，这直接导致了它作为一种损失函数存在统计偏差（具体论证见定理1）。

[定理1] 考虑单变量标签序列$$\mathbf{y}\in\mathbb{R}^{T\times 1}$$，其条件自相关矩阵为$$\mathbf{\Sigma}_\mathbf{x}\in\mathbb{R}^{T\times T}$$，则标签序列的实用负对数似然可表示为：$$\mathcal{L}_\mathrm{NLL} = \left\|\mathbf{y}-\hat{\mathbf{y}}\right\|_{\mathbf{\Sigma}^{-1}}^2$$。显然，仅当$$\mathbf{\Sigma}_\mathbf{x}$$是单位阵，即标签自相关不存在时，才有$$\mathcal{L}_\mathrm{NLL} = \mathcal{L}_\mathrm{MSE}$$。

研究团队通过实证分析验证了这一矛盾：即使在给定历史序列的条件下，标签序列依然呈现出显著的条件相关结构，从而在实证层面证伪了独立性假设。实验进一步揭示，即便对标签进行频域变换或主成分分解等处理，变换后的序列中依然存在残余相关性。这意味着，即使在变换后的特征空间应用MSE，结构性偏差依然无法根除。

DistDF：基于联合分布对齐的无偏训练框架

为了从根本上规避传统方法的独立性假设，DistDF的核心思路是直接对齐预测序列的条件分布$$\mathbb{P}(\hat{\mathbf{y}}|\mathbf{x})$$与真实标签的条件分布$$\mathbb{P}(\mathbf{y}|\mathbf{x})$$。直观上，这可以通过最小化两个条件分布之间的距离$$\mathrm{Disc}(\mathbb{P}(\hat{\mathbf{y}}|\mathbf{x}),\mathbb{P}(\mathbf{y}|\mathbf{x}))$$来实现。

然而，直接操作面临严重的样本稀缺问题。对于一段特定的历史序列$$\mathbf{x}$$，数据集中通常只有一个对应的真实标签序列$$\mathbf{y}$$，模型也只会产生一个预测序列$$\hat{\mathbf{y}}$$。这种“单样本”场景使得直接估计条件分布距离在统计上极不可靠。

如何破解这一难题？团队巧妙地利用了概率论中的恒等式：$$\mathbb{P}(\mathbf{y},\mathbf{x}) = \mathbb{P}(\mathbf{y}|\mathbf{x})\mathbb{P}(\mathbf{x})$$。由于边缘分布$$\mathbb{P}(\mathbf{x})$$是共享的，如果联合分布对齐了，那么条件分布自然也就对齐了。基于此，他们将棘手的条件分布匹配问题，转化为了更可行的联合分布匹配问题。

进一步结合最优传输理论，论文证明了联合分布的Wasserstein距离构成了条件分布Wasserstein距离期望的上界：

$$\int \mathcal{W}_p\left(\mathbb{P}(\mathbf{y}|\mathbf{x}), \mathbb{P}(\hat{\mathbf{y}}|\mathbf{x})\right) d\mathbb{P}(\mathbf{x}) \leq \mathcal{W}_p \left(\mathbb{P}(\mathbf{y},\mathbf{x}), \mathbb{P}(\hat{\mathbf{y}},\mathbf{x})\right)$$

因此，通过最小化历史-预测联合分布$$\mathbb{P}(\hat{\mathbf{y}},\mathbf{x})$$与历史-标签联合分布$$\mathbb{P}(\mathbf{y},\mathbf{x})$$之间的Wasserstein距离，就能有效实现条件分布的对齐，从而导向预测模型的无偏训练。这一转换的关键优势在于，它允许利用整个数据集的样本来估计联合分布距离，显著提升了估计的统计可靠性。

DistDF的具体实现流程清晰而高效：

首先，构造联合序列：$$\mathbf{z}=[\mathbf{y},\mathbf{x}]$$和$$\hat{\mathbf{z}}=[\hat{\mathbf{y}},\mathbf{x}]$$；

接着，计算这两个联合序列之间的Wasserstein距离：$$\mathcal{L}_\mathrm{dist}=\mathcal{W}_p \left(\mathbb{P}(\mathbf{z}), \mathbb{P}(\hat{\mathbf{z}})\right)$$，

最后，与传统的MSE损失进行加权融合：$$\mathcal{L}_{\alpha} = \alpha \cdot \mathcal{L}_\mathrm{dist} + (1-\alpha) \cdot \mathcal{L}_\mathrm{MSE}$$

作为一种模型无关的损失函数，DistDF可以无缝集成到各类预测模型架构中。

广泛实验验证：一致且显著的优势

论文首先将DistDF与现有的、旨在削弱标签相关性的损失函数（如FreDF和Time-o1）进行了比较。结果表明，这些方法虽然通过标签变换减少了似然估计的偏差并提升了性能，但残差偏差仍然存在，因此性能仍有提升空间。而DistDF通过直接最小化条件分布之间的距离，实现了预测模型的无偏训练，从而取得了最佳的预测性能。

其次，通过消融实验，团队验证了分布对齐中两个关键因素的作用：分别考察仅对齐均值、仅对齐协方差以及同时对齐二者的情形。结果显示，两者单独对齐时均能带来性能提升，而二者同时对齐时效果最为显著。

此外，论文还对模型输出的预测序列进行了可视化分析。结果表明，采用DistDF训练的模型能够更好地跟随序列中的突发变化，使得预测序列在整体形态上更加贴近真实数据。这进一步说明，DistDF的作用不仅在于降低数值误差，更在于引导模型学习到了真实未来时间序列的整体分布形态。

最后，论文验证了DistDF与不同预测模型的兼容性。结果显示，无论模型本身的复杂度和建模方式如何，引入DistDF训练策略后，模型的预测性能几乎都能获得进一步提升。这一结果有力地表明，DistDF的作用并非弥补特定模型结构的不足，而是提供了一种更优的、通用的训练信号。

范式迁移：为多任务学习提供分布视角

从更广阔的视角看，这项研究重新审视了多任务学习场景中的损失函数设计。研究团队强调，多任务学习的核心目标不应局限于对T个任务标签进行逐点建模，而应转向对一个在任务维度上具有内在相关结构的随机过程进行整体建模。

在这一视角下，传统损失函数（如MSE）隐含的“给定输入条件下各任务标签相互独立”的假设，实际上将一个高维、相关的随机过程建模任务，退化为一组彼此独立的标量回归任务。正是由于忽略了标签序列的内生结构，这些损失函数才引入了偏差。

DistDF通过将预测序列与真实标签建模为概率分布，实现了对任务维度上相关结构的整体建模。优化基于分布对齐的损失函数，使得模型能够显式地学习标签序列的整体形态、相关结构以及条件依赖关系。

更进一步，这项研究揭示的问题具有广泛的普适性。只要学习任务的输出构成具有显著相关性的序列——无论是语音、图像、文本还是用户行为轨迹——如果仍然沿用基于独立性假设的损失函数（如MSE），就必然会引入结构性偏差。因此，DistDF所倡导的联合分布对齐思想，不仅适用于时间序列预测，也同样为语音合成、轨迹预测等任务提供了启示。它并非针对时间序列的特定技巧，而是为多任务学习问题提供了一种更为通用的损失函数构造范式。

本工作得到了北京市科学技术委员会、中关村科技园区管理委员会的大力支持。

ICLR 2026精选：北大团队基于最优传输的时序预测模型深度测评

独立性假设：理论与实证的双重失效

DistDF：基于联合分布对齐的无偏训练框架

广泛实验验证：一致且显著的优势

范式迁移：为多任务学习提供分布视角

相关阅读

最新教程

最新资讯