基本信息
题目:Democratizing planetary-scale analysis: An ultra-lightweight Earth embedding database for accurate and flexible global land monitoring
平台:ArXiv
论文:https://arxiv.org/abs/2601.11183
代码开源:
https://github.com/shuangchencc/ESD
数据开源:
https://data-starcloud.pcl.ac.cn/iearthdata/64
时间:2026年1月16日
单位:香港大学、鹏城实验室、香港理工大学、清华大学、中山大学等
第一作者:Shuang Chen
通讯作者:Jie Wang、Peng Gong
研究背景
遥感进入“长期、连续、全球”观测时代,形成了 PB 级别档案,但许多研究团队受限于存储与算力,难以开展行星尺度分析。尽管遥感基础模型和地球嵌入(Earth embeddings)被认为能将高维观测压缩为紧凑表征,从而提升下游效率,但目前可直接使用的全球尺度嵌入数据库仍稀缺,且常面临压缩比不足、时间结构缺失、或长期一致性不够等问题。ESD在高压缩、保留时间结构、可重建且具语义可用性之间达到最佳平衡,从而降低行星尺度研究的门槛,让行星尺度研究普世化。
核心贡献
- 构建全球 30 m、25 年的地球嵌入数据库ESD
- ESD 面向行星尺度分析的共性需求,把多源遥感观测压缩为信息密集的嵌入,降低存储与计算门槛;
- 数据跨度覆盖Landsat 5/7/8/9 与MODIS Terra,具备跨代际长期一致性,便于十年尺度的变化研究。
- 提出ESDNet + FSQ 的离散量化嵌入框架,实现约 340 倍压缩,并仍可重建近原始反射率
- 相较原始日尺度数据体量,ESD 达到约 ~340× 压缩,使全球陆地一年数据从0.8PB降到 2.4 TB。
- 通过重建 + 多任务监督的联合训练,把压缩表征转化为具语义可用性的嵌入,并在下游分类与小样本场景中体现优势
- 多任务 head 对齐多源监督产品,使latent space既保留物理一致性,又形成更清晰的语义结构;
- ESD 嵌入作为特征输入,在土地覆盖分类等任务中整体优于直接使用融合反射率,并在 few-shot设置下更早达到稳定性能,显示其作为通用表征层的迁移潜力。
数据构建
- 输入观测数据:先构建 SDC30,再生成 ESD
- ESD的输入是SDC30:由 Landsat 5/7/8/9 与 MODIS Terra 融合,覆盖2000–2024,6波段(Blue/Green/Red/NIR/SWIR1/SWIR2);
- SDC30 通过数据一致化、缺失重建与时空融合得到gap-free反射率序列,ESD 在此基础上做嵌入化编码。
- 辅助数据与多任务监督数据
- 多任务 head 使用多类监督产品,包括 GAIA、ESA WorldCover、GLAD-SW、GLAD-CE等,通过多任务学习约束 latent space 的语义结构;
- 验证样本使用FAST数据集作为全球分布的训练/验证点集。
方法设计
- 总体框架
- ESD生产主要是三个步骤:
- Spatiotemporal Fusion:Landsat/MODIS → SDC30;
- Latent Encoding & Quantization:把SDC30编码后用 ESDNet+FSQ 离散化为 [12, H, W];
- Multitask Inference & Reconstruction:用多任务头做下游推理,同时可解码重建反射率。
- ESDNet 网络结构
- Temporal Encoder Network:时间编码器
- 多层 Conv1D + Residual Conv1D blocks;前段用 stride>1 做时间降采样,扩大感受野以捕获长程物候模式;后段 stride=1 保持表达能力并用残差稳定训练。
- FSQ:有限标量量化模块进行压缩
- 相比传统 VQ 的“学习 codebook”,FSQ 把 latent 投影到有界空间后逐维量化为预设标量集合;用简单 rounding 实现离散化,并用 STE 反传梯度;优点是稳定、轻量,避免 codebook collapse 和额外的 commitment loss。
- Mirror Decoder:镜像解码器与重建约束
- 解码器对称设计(残差块 + 反卷积/转置卷积)把嵌入上采样回原时间维度;重建损失提供自监督信号,保证嵌入保留关键光谱-时间信息。
- Multi-task Heads:让嵌入场可以实际应用
- 对量化 latent 做 temporal pooling 得到摘要向量,然后接多个轻量全连接 head;通过多源监督数据共同训练,使 latent space 同时编码物理信息与主题语义。
- Loss:总损失
- 重建(MSE)、多任务分类(加权交叉熵)、以及回归类监督项加权组成,用超参 α/β/γ 平衡梯度贡献。
实验结果
- 数据量对比:把 PB 级压到 TB 级
- 全球陆地一年日尺度 30 m 反射率(SDC30)数据量约 0.8 PB;ESD 约 2.4 TB。单个tile 45.6 GB → 136.3 MB;
- 这一体量使得十年尺度全球分析可在本地工作站/小型服务器集群上完成,而非必须依赖昂贵云平台。
- 重建保真:质量高度可信
- 在 FAST-validation 的 36,636 个全球点位上评估,6 波段平均 MAE ≈ 0.0130,RMSE ≈ 0.0179,CC ≈ 0.854。
- 下游语义任务:嵌入优于直接用融合反射率
- ESD 在土地覆盖分类等下游任务中整体优于 raw reflectance,并在 few-shot 场景表现更强。
- 隐式去噪现象:云残留与云影被压缩掉
- 量化瓶颈迫使模型优先学习稳定的地表生物物理信号而非瞬时噪声;论文展示了云残留与云影在解码结果中被显著缓解。
核心结论
- 本研究将 25 年全球 30 m 日尺度反射率压缩为超轻量嵌入数据库ESD,把行星尺度分析门槛显著降低;
- 嵌入不仅能存,还能回到物理世界。解码重建误差低,并在 2000–2024 年保持长期稳定性;
- 通过多任务学习获得更语义化的 latent space,在分类与 few-shot 等下游任务中优于直接使用融合反射率,并伴随一定的去噪收益。
数据下载
鹏城实验室iEarth平台:
https://data-starcloud.pcl.ac.cn/iearthdata/64
Demo代码:
https://github.com/shuangchencc/ESD
文章:
https://arxiv.org/abs/2601.11183
P.S. 如果下载不够快或需要数据量大,可以联系小编提供硬盘寄送
关注公众号
尽享最新遥感进展