首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >ArXiv | 仅需2.4TB! 港大、鹏城实验室联合发布全球首套超轻量化30米长时序多源遥感嵌入数据(2000-2024),数据、代码已开源!

ArXiv | 仅需2.4TB! 港大、鹏城实验室联合发布全球首套超轻量化30米长时序多源遥感嵌入数据(2000-2024),数据、代码已开源!

作者头像
气象学家
发布2026-03-26 12:35:33
发布2026-03-26 12:35:33
270
举报
文章被收录于专栏:气象学家气象学家

基本信息

题目:Democratizing planetary-scale analysis: An ultra-lightweight Earth embedding database for accurate and flexible global land monitoring

平台:ArXiv

论文:https://arxiv.org/abs/2601.11183

代码开源:

https://github.com/shuangchencc/ESD

数据开源:

https://data-starcloud.pcl.ac.cn/iearthdata/64

时间:2026年1月16日

单位:香港大学、鹏城实验室、香港理工大学、清华大学、中山大学等

第一作者:Shuang Chen

通讯作者:Jie Wang、Peng Gong

研究背景

遥感进入“长期、连续、全球”观测时代,形成了 PB 级别档案,但许多研究团队受限于存储与算力,难以开展行星尺度分析。尽管遥感基础模型和地球嵌入(Earth embeddings)被认为能将高维观测压缩为紧凑表征,从而提升下游效率,但目前可直接使用的全球尺度嵌入数据库仍稀缺,且常面临压缩比不足、时间结构缺失、或长期一致性不够等问题。ESD在高压缩、保留时间结构、可重建且具语义可用性之间达到最佳平衡,从而降低行星尺度研究的门槛,让行星尺度研究普世化。

核心贡献

  1. 构建全球 30 m、25 年的地球嵌入数据库ESD
  • ESD 面向行星尺度分析的共性需求,把多源遥感观测压缩为信息密集的嵌入,降低存储与计算门槛;
  • 数据跨度覆盖Landsat 5/7/8/9 与MODIS Terra,具备跨代际长期一致性,便于十年尺度的变化研究。
  1. 提出ESDNet + FSQ 的离散量化嵌入框架,实现约 340 倍压缩,并仍可重建近原始反射率
  • 相较原始日尺度数据体量,ESD 达到约 ~340× 压缩,使全球陆地一年数据从0.8PB降到 2.4 TB。
  1. 通过重建 + 多任务监督的联合训练,把压缩表征转化为具语义可用性的嵌入,并在下游分类与小样本场景中体现优势
  • 多任务 head 对齐多源监督产品,使latent space既保留物理一致性,又形成更清晰的语义结构;
  • ESD 嵌入作为特征输入,在土地覆盖分类等任务中整体优于直接使用融合反射率,并在 few-shot设置下更早达到稳定性能,显示其作为通用表征层的迁移潜力。

数据构建

  1. 输入观测数据:先构建 SDC30,再生成 ESD
  • ESD的输入是SDC30:由 Landsat 5/7/8/9 与 MODIS Terra 融合,覆盖2000–2024,6波段(Blue/Green/Red/NIR/SWIR1/SWIR2);
  • SDC30 通过数据一致化、缺失重建与时空融合得到gap-free反射率序列,ESD 在此基础上做嵌入化编码。
  1. 辅助数据与多任务监督数据
  • 多任务 head 使用多类监督产品,包括 GAIA、ESA WorldCover、GLAD-SW、GLAD-CE等,通过多任务学习约束 latent space 的语义结构;
  • 验证样本使用FAST数据集作为全球分布的训练/验证点集。

方法设计

  1. 总体框架
  • ESD生产主要是三个步骤:
    • Spatiotemporal Fusion:Landsat/MODIS → SDC30;
    • Latent Encoding & Quantization:把SDC30编码后用 ESDNet+FSQ 离散化为 [12, H, W];
    • Multitask Inference & Reconstruction:用多任务头做下游推理,同时可解码重建反射率。
  1. ESDNet 网络结构
  • Temporal Encoder Network:时间编码器
    • 多层 Conv1D + Residual Conv1D blocks;前段用 stride>1 做时间降采样,扩大感受野以捕获长程物候模式;后段 stride=1 保持表达能力并用残差稳定训练。
  • FSQ:有限标量量化模块进行压缩
    • 相比传统 VQ 的“学习 codebook”,FSQ 把 latent 投影到有界空间后逐维量化为预设标量集合;用简单 rounding 实现离散化,并用 STE 反传梯度;优点是稳定、轻量,避免 codebook collapse 和额外的 commitment loss。
  • Mirror Decoder:镜像解码器与重建约束
    • 解码器对称设计(残差块 + 反卷积/转置卷积)把嵌入上采样回原时间维度;重建损失提供自监督信号,保证嵌入保留关键光谱-时间信息。
  • Multi-task Heads:让嵌入场可以实际应用
    • 对量化 latent 做 temporal pooling 得到摘要向量,然后接多个轻量全连接 head;通过多源监督数据共同训练,使 latent space 同时编码物理信息与主题语义。
  • Loss:总损失
    • 重建(MSE)、多任务分类(加权交叉熵)、以及回归类监督项加权组成,用超参 α/β/γ 平衡梯度贡献。

实验结果

  1. 数据量对比:把 PB 级压到 TB 级
  • 全球陆地一年日尺度 30 m 反射率(SDC30)数据量约 0.8 PB;ESD 约 2.4 TB。单个tile 45.6 GB → 136.3 MB;
  • 这一体量使得十年尺度全球分析可在本地工作站/小型服务器集群上完成,而非必须依赖昂贵云平台。
  1. 重建保真:质量高度可信
  • 在 FAST-validation 的 36,636 个全球点位上评估,6 波段平均 MAE ≈ 0.0130,RMSE ≈ 0.0179,CC ≈ 0.854。
  1. 下游语义任务:嵌入优于直接用融合反射率
  • ESD 在土地覆盖分类等下游任务中整体优于 raw reflectance,并在 few-shot 场景表现更强。
  1. 隐式去噪现象:云残留与云影被压缩掉
  • 量化瓶颈迫使模型优先学习稳定的地表生物物理信号而非瞬时噪声;论文展示了云残留与云影在解码结果中被显著缓解。

核心结论

  1. 本研究将 25 年全球 30 m 日尺度反射率压缩为超轻量嵌入数据库ESD,把行星尺度分析门槛显著降低;
  2. 嵌入不仅能存,还能回到物理世界。解码重建误差低,并在 2000–2024 年保持长期稳定性;
  3. 通过多任务学习获得更语义化的 latent space,在分类与 few-shot 等下游任务中优于直接使用融合反射率,并伴随一定的去噪收益。

数据下载

鹏城实验室iEarth平台:

https://data-starcloud.pcl.ac.cn/iearthdata/64

Demo代码:

https://github.com/shuangchencc/ESD

文章:

https://arxiv.org/abs/2601.11183

P.S. 如果下载不够快或需要数据量大,可以联系小编提供硬盘寄送

关注公众号

尽享最新遥感进展

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-01-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 气象学家 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档