最新对地观测像素级基础模型：剑桥大学SOTA精度突破

2026-06-11阅读 0热度 0

SOTA

卫星遥感已全面渗透农业管护、林业监测、生态评估、国土规划等领域，成为大尺度、长时序地表动态监测的核心工具。依托长周期卫星数据，研究者得以追踪地表变化——但真实数据远非理想状态。云层遮挡、重访周期不规则、传感器分辨率差异、设备噪声等干扰因素，使得原始数据残缺、异构、无序，难以直接支撑高精度智能分析。尤其针对农业物候、短期生态扰动这类精细场景，一旦云层覆盖，关键过程便彻底丢失。

当前行业主流做法依赖影像合成技术实现“去云”与降噪，生成标准化无云影像。这确实提升了数据可用性，但代价显著——物候动态、短时突变等精细时序特征常在合成过程中被削弱甚至抹除，核心信息大量流失。

近年来遥感基础模型通过大规模预训练取得长足进步，但多数模型仍依赖经过深度过滤与规整的理想数据——训练时仅使用无云合成影像或时序均值。这种策略实际上舍弃了大量虽受云层影响却仍包含真实变化规律的观测样本，导致模型在实际场景中面对稀疏、残缺、云量复杂的时序数据时，特征提取稳定性差，泛化性能严重受限。

为突破这一瓶颈，剑桥大学、阿尔托大学、布里斯托大学的联合研究团队基于Barlow Twins算法，构建了一种全新的时序特征学习范式。不再过滤含云数据，而是通过约束同一位置不同观测子集间的特征一致性，让模型自主学习地表稳定的时空变化规律，形成具备时序采样不变性的遥感特征表示。在此基础上，团队进一步提出了面向哨兵一号/哨兵二号多模态时序数据的像素级遥感基础模型——TESSERA。

相关成果以「TESSERA: Temporal Embeddings of Surface Spectra for Earth Representation and Analysis」为题发表于预印本平台arXiv。

研究亮点：

构建全球尺度、像素级、高标签利用率的特征嵌入，设计全新自监督架构，训练出融合哨兵一号/二号多模态数据的像素级遥感基础模型。
推出符合FAIR准则的数据即嵌入方案，发布全球年度10米分辨率像素级8位整型特征嵌入数据集，提供可直接部署的合规遥感资源。
实验证明，在多样化分类、分割与回归任务中，TESSERA能以极高标签效率达到SOTA精度，通常仅需一个轻量任务头和极少量计算资源。

数据集：构建全球至局部的多维度评测体系

该研究构建了覆盖全球的大规模时序遥感数据体系，既用于模型预训练，也用于系统评估模型的泛化能力。整个数据体系由预训练数据集和下游评测数据集组成，均基于哨兵一号雷达数据和哨兵二号光学数据构建，充分发挥雷达与光学观测的互补优势。

TESSERA 优化了对地观测领域的数据嵌入方案

预训练阶段，研究团队构建全球尺度大规模时序数据集，时间跨度覆盖2017年至2024年，空间范围覆盖全球三千余个网格瓦片，总计约8亿个d-pixel样本。与许多经过严格筛选和规整的数据集不同，该数据集尽可能保留真实观测的原始特性——包括数据缺失、不规则采样和云层遮挡等情况。同时，每个时间步均配套二值掩码，用于标记观测有效状态，使模型能够显式感知数据缺失与观测质量差异。

下游评测阶段，研究团队选取了6项公开基准数据集，覆盖分类、分割和回归三类主流任务，评测区域涵盖德国、法国、奥地利、芬兰、马来西亚等多个国家和地区，覆盖农业、森林等典型应用场景。每类任务均同时包含大尺度区域数据集和精细化局部数据集，分别评估模型的跨区域迁移能力和细粒度特征建模能力。

此外，针对当前高分辨率、多时相哨兵一号/二号多模态标注数据稀缺的问题，研究团队还自主构建了两个新的评测基准：一是奥地利地块级作物制图数据集，用于评估精细农业场景下的分类与分割能力；二是基于激光雷达校正构建的东南亚森林林冠高度数据集，用于验证森林结构参数反演任务中的表现。

一款面向对地观测任务的像素级基础模型

TESSERA 的设计目标是在尽可能保留原始观测信息的前提下，让模型直接从复杂、不完整的时序数据中学习稳定表征，减少对数据规整、补全和修复流程的依赖。

为此，该研究首先提出了一种新的时序数据组织方式——d-pixel。传统分析通常以单景影像或固定时间序列为输入，而d-pixel以单个空间位置为核心，将同一像素在不同时间获取的多源观测按时间顺序组织成观测序列。每个d-pixel不仅包含哨兵二号光学信息和哨兵一号雷达信息，还通过掩码向量标识哪些时间步存在云遮挡或数据缺失。这种表示方式完整保留了地表变化的时序特征——无论是植被生长带来的缓慢变化，还是灾害、扰动等引发的短时突变都能够被保留下来，从根本上避免了传统规整过程中的信息损失。

TESSERA 整体处理流程

模型架构上，TESSERA 采用双分支编码器，分别处理光学和雷达数据。两类数据的成像机制和物理属性存在明显差异，独立编码能够充分挖掘各自特征，再通过融合实现多模态互补。对每种模态，模型首先对有效观测进行嵌入表示，并加入可学习的年内日位置编码引入时间信息，然后通过Transformer编码器建模长时序依赖关系，最后利用门控循环单元聚合整条时间序列，生成固定维度的单模态表征。光学与雷达特征融合后，形成128维多模态地表表征。研究还引入量化感知训练，将最终特征压缩为8位整型，在几乎不损失精度的情况下将存储规模缩减约75%。

预训练策略是TESSERA的核心创新。基于Barlow Twins自监督学习框架，对同一个d-pixel，系统从其完整时间序列中随机抽取两组观测子集，构建两种不同的“观测视角”。尽管两组观测包含的时间点不同，甚至部分时间步存在缺失，但描述的是同一地表对象。训练过程中，模型被要求将这两组观测映射到尽可能一致的特征空间。通过这种方式，模型学习到的不再是某一次具体观测的瞬时特征，而是隐藏在不同观测背后的稳定地表规律，从而获得对时间采样方式具有鲁棒性的特征表示。此外，研究还引入混合正则化与全局打乱策略，进一步提升模型对观测扰动和空间自相关性的鲁棒性。

TESSERA 在低标注与稀疏数据下展现优势

为全面评估TESSERA的性能，该研究围绕遥感领域的典型应用场景设计了系统化实验，从分类、分割和回归三类任务出发，验证模型在不同数据规模、标注条件和区域场景下的表现。实验选取了多种主流遥感基础模型和经典视觉模型作为基线，统一设置1%、30%和100%三种标注比例，重点考察标签稀缺场景下的学习能力。为保证比较公平，不同任务均采用轻量化适配器进行下游推理。

分类任务中，TESSERA展现出显著的时序特征学习优势。无论是在国家尺度树种分类任务还是精细化作物分类任务中，模型均取得领先表现。尤其在仅使用1%标注数据的极低样本场景下，TESSERA仍保持稳定性能，分类精度较最优基线提升约8个百分点。这一优势主要源于模型对地表长期变化规律的有效建模——通过利用完整时序观测捕捉植被生长周期和物候特征，即便标注极少，也能形成具有较强区分度的类别表示。

作物分类实验

分割任务中，TESSERA同样表现出优秀的空间细节刻画能力。面对大尺度农田地块分割任务，模型在全量标注条件下达到行业领先水平；在低标注场景下，性能进一步超越所有对照模型。值得注意的是，TESSERA仅依靠轻量化解码器便能够有效学习空间上下文信息，在保持精度的同时兼顾部署效率。在奥地利作物语义分割数据集上，模型生成的地块边界更清晰，不同作物之间的混淆显著减少，整体语义一致性更强。

回归任务重点考察模型对连续地表参数的表征能力。在地上生物量估算任务中，TESSERA在不同标注比例下均取得最佳结果，预测误差更低，空间分布更连续。在森林林冠高度反演任务中，模型进一步展现出对三维森林结构信息的捕捉能力，估算结果与激光雷达实测数据吻合度最高，能够有效恢复森林垂直结构特征。

地上生物量回归实验

综合所有实验结果，TESSERA在分类、分割和回归三类任务中均保持稳定优势，尤其在低标注、数据稀疏和观测缺失等复杂条件下优势更为明显。相比许多依赖高质量训练数据的模型，TESSERA在真实遥感场景中的性能下降更加平缓，展现出更强的鲁棒性和泛化能力。

结语：直面真实数据的遥感基础模型

遥感基础模型真的非“理想数据”不可吗？TESSERA的尝试给出了不同答案：让模型直接面对真实世界中残缺、不规则、云层干扰频繁的观测序列，在自监督框架下学习具有时序采样不变性的特征表示。这并不意味着数据清洗不再重要，而是提示研究人员可以将更多精力从“把数据变干净”转向“让模型学会处理不干净的数据”。毕竟，卫星拍下的每一张含云影像，都是地球真实观测的一部分。相比不断追求更“完美”的数据，让模型学会理解真实世界的复杂性，或许才是遥感基础模型走向通用化的重要方向。

最新对地观测像素级基础模型：剑桥大学SOTA精度突破

数据集：构建全球至局部的多维度评测体系

一款面向对地观测任务的像素级基础模型

TESSERA 在低标注与稀疏数据下展现优势

结语：直面真实数据的遥感基础模型

相关阅读

最新教程

最新资讯