
当灾难来袭,信息就是生命线。多年来,作为谷歌危机韧性(Crisis Resilience)工作的一部分,我们一直针对自然灾害提供早期预警,帮助社区保持安全。然而,对于暴洪(flash floods)这类灾害,高保真数据根本不存在。长期以来,这一数据缺口阻碍了我们训练AI模型来预测暴洪发生的能力——直到现在。
今天,我们推出 Groundsource,这是一种全新的AI驱动方法,能够将公开信息转化为高质量的历史灾害数据记录——首先从城市暴洪开始。Groundsource 利用 Gemini 分析了数十年的公开报告,识别出超过260万起历史洪水事件,涵盖150多个国家。随后,它使用谷歌地图确定了每次事件的精确地理边界,从而创建了一个专注于暴洪的数据集。利用该数据集,我们训练了一个新模型,在提前24小时预测城市暴洪方面取得了实质性进展。
目前,城市暴洪预报已在谷歌洪水中心(Flood Hub)上线——与现有的河流洪水预报一起(后者覆盖150多个国家的20亿人口,针对最严重的河流洪水)——这标志着我们洪水预报能力的重大扩展。对全球社区而言,这意味着在灾难来袭前做好更充分的准备。对我们的合作伙伴和科学家来说,Groundsource提供了一个庞大的开源基准数据,以扩大其影响力——特别是在那些长期缺乏历史暴洪数据的城市地区。
今天,城市暴洪模型和数据集加入了 Google Earth AI 地理空间模型和数据家族。重要的是,Groundsource 这种AI驱动方法有望应用于其他自然灾害,如滑坡或热浪,将来自世界各地的核实报告转化为数据集,从而提升全球韧性。通过将公开信息转化为可操作的数据,我们不仅仅是在分析过去——我们正在为每个人建设一个更具韧性的未来,朝着"无人对自然灾害感到意外"的目标迈进。
了解更多关于我们的研究,如何通过 Groundsource 弥合数据缺口,并将洪水预报扩展到城市暴洪,以帮助保护社区安全。

挑战:全球数据稀缺
虽然某些自然灾害(如地震事件)有统一的全球传感器网络进行追踪,但像洪水这样的水文气象灾害缺乏标准化的观测基础设施。长期以来,由于缺乏用于模型训练和验证的高质量全球历史数据,山洪的准确预测一直受到严重阻碍。这片"数据荒漠"构成了严峻的挑战。
现有的档案库,例如基于卫星的全球洪水数据库和达特茅斯洪水观测站,提供了宝贵的洪水淹没范围数据,但面临着物理限制,如云层干扰、卫星重访周期,并且往往只能捕捉到大规模、持续时间长的灾害。全球灾害警报和协调系统——联合国与欧盟委员会的联合倡议,用于监测人道主义影响——提供了约 10,000 条记录的重要数据,但主要关注高影响事件。
尽管 10,000 条记录看似不少,但与训练和验证全球规模的 AI 所需的数据相比,这仅是九牛一毛。数据稀缺对于局地性或快速发生的灾害(如山洪)来说尤为棘手,因为这些事件在传统灾害数据库中常常未被记录,导致几乎不可能构建出在全球范围内可靠运行的预测模型。
Groundsource:携手 Gemini 将新闻报道转化为数据
为了解决这一全球数据稀缺问题,Groundsource 通过分析现有的新闻报道来整理洪水详情,将公开信息转化为结构化的、带有具体地点的事件档案,覆盖了自 2000 年至今的 150 多个国家。Groundsource 的核心创新在于其能够利用先进的 AI 从全球新闻媒体中提取有效信息。

(图表:展示了数字化新闻的指数级增长以及 Groundsource 流程捕捉到的洪水事件的相应增加,突显了近年(2020-2025 年)数据密度的显著提升。)
关于历史事件,存在着海量的非结构化数据——新闻文章、政府报告、地方公告——但手动大规模提取这些信息是不可能的。我们的方法分析那些以洪水为主要主题的新闻报道。然后,我们使用 Google Read Aloud 用户代理从 80 种语言中提取主要文本,并通过 Cloud Translation API 将其标准化为英语。
提取过程中最关键的一步是使用 Gemini 大语言模型完成的。我们设计了一个复杂的提示词,引导 Gemini 执行严格的解析验证流程:
Groundsource 的技术验证确认了其对于高风险研究的可靠性。在人工审查中,我们发现 60% 的提取事件在地点和时间上都是准确的。更重要的是,82% 的事件准确度足以用于实际分析——例如,能够捕捉到正确的行政区,或将事件发生时间精确到其报告峰值的 24 小时内。
Groundsource 提供的覆盖范围是对现有档案的大规模扩展。通过将非结构化媒体转化为数据,我们生成了 260 万起事件——相比传统监测系统中的记录有了显著增加。此外,时空匹配显示,Groundsource 捕捉到了 2020 年至 2026 年间 GDACS 记录的 85% 到 100% 的严重洪水事件,这证明了它在识别高影响灾害以及较小规模、局地性事件方面的有效性。

(全球地图:显示了 Groundsource 中洪水事件的密度。红点表示来自 GDACS 的洪水。)
影响:实现更优的自然灾害预测
通过利用这些丰富、结构化的数据,我们能够在城市山洪发生前 24 小时内提供近乎全球范围的预测。我们现在正将这些预测整合到 Google 的 Flood Hub 中,显著扩大了 Google 的洪水覆盖范围。
这项工作加入了我们的 Google 地球 AI 地理空间模型和数据集系列,展示了我们在危机应对领域的科学领导力,证明了大语言模型可以系统性地将世界的"非结构化记忆"——新闻——转化为强大的科学基线。此外,这种方法有潜力应用于解决其他缺乏精确历史记录的自然灾害(如干旱、滑坡和雪崩)的数据缺口问题。
通过将世界各地的新闻转化为可操作的数据,我们不仅仅是在记录过去,更是在构建一个更具韧性的未来。我们目前正在完善模型,努力将覆盖范围扩大到更多农村地区,并整合新的数据源。展望未来,我们将把这种方法应用于其他灾害类型——这些灾害由于传统上缺乏地面实况数据而无法预测,从而朝着未来没有任何社区会因自然灾害而措手不及的目标迈进。
编译来源:Google research
END
声明:欢迎转载、转发。气象学家公众号转载信息旨在传播交流,其内容由作者负责,不代表本号观点。文中部分图片来源于网络,如涉及内容、版权和其他问题,请联系小编处理。