谷歌用 Gemini 大语言模型阅读 500 万篇新闻，为 150 国标注山洪风险

2026-05-06阅读 0热度 0

Gemini 谷歌人工智能山洪

谷歌的新思路：用500万篇新闻，为150国预警山洪

山洪暴发，堪称全球最致命的气象杀手之一，每年夺走超过5000人的生命。然而，与温度、风速这些可以大范围持续监测的气象要素不同，山洪来去迅猛、影响范围极其局部，传统的观测网络常常“看”不到它。这正是山洪预测长久以来的核心痛点：数据缺口太大。即便如今深度学习模型日益强大，没有足够的地面真实数据来“校准”，预报准确率也难有起色。

那么，这个数据缺口该怎么补？谷歌研究团队给出一个出人意料的答案：去阅读新闻。没错，他们动用了自家的 Gemini 大语言模型，当起了全球新闻的“速读员”。

团队系统梳理了全球多达500万篇新闻报道，从中精准提取出260万次洪水事件的记录。这些散落在新闻文字中的灾害描述，被巧妙地转化为带有精确地理坐标和时间标签的数据序列。谷歌将这套全新的数据集命名为“地面数据源（Groundsource）”。项目研究产品经理吉拉·洛伊克透露，这是谷歌首次将大语言模型用于构建此类地球物理数据集，相关成果和数据集已向公众开放。

有了Groundsource这套源自真实世界的“参考答案”，研究就有了基准。团队随后训练了一个基于长短期记忆（LSTM）神经网络的预测模型。这个模型的任务很明确：输入全球气象预报数据，输出特定区域发生山洪的概率。

目前，这套山洪预测系统已经在谷歌的“洪水中心”平台上投入应用，为全球超过150个国家的城市区域标注风险等级，数据也与各国应急机构共享。南部非洲发展共同体的应急官员安东尼奥·何塞·贝莱扎在合作测试后反馈，该模型确实帮助他们加快了应对洪灾的速度。

当然，任何新技术在初始阶段都难免存在局限。这套模型的第一个短板是分辨率，目前只能识别大约20平方公里区域内的风险，对于更小范围的精准预警尚显不足。其次，在预警精度上，它暂时还比不上美国国家气象局那种融合了本地实时雷达数据的专业系统。

但问题在于，不是每个地区都有能力部署昂贵的气象雷达和密集的监测站。这正是谷歌此项研究最具价值的落点：它很大程度上是为那些气象监测基础设施薄弱、历史数据严重缺失的地区量身打造的。谷歌抗灾项目负责人朱丽叶·罗森伯格对此解释得很透彻：“通过整合这数百万份报道，Groundsource数据集实际上抹平了数据分布的不均衡。它让我们能将预测能力，拓展到那些原本‘信息荒漠’般的地区。”

这开启了一个充满想象力的新范式。罗森伯格表示，团队希望这种利用大语言模型从定性文字中挖掘定量数据的方法，未来能复制到其他短暂却致命的灾害预测上，比如突如其来热浪和泥石流。

实际上，谷歌的努力是整个领域探索的一个缩影。科技公司Upstream Tech的首席执行官马歇尔·莫滕奥特对此深有体会，他的公司就曾利用深度学习预测河流流量。他表示，谷歌的成果是当前为深度学习气象模型构建数据体系的众多前沿尝试之一。莫滕奥特联合创立的dynamical.org，正致力于为研究界整理更适用的机器学习气象数据集。

“数据稀缺是地球物理领域最头疼的问题之一。”莫滕奥特总结道，“一方面，地球数据总量庞大到过剩；可当你需要真实的地面观测来校验模型时，数据又少得可怜。谷歌这种获取数据的方式，确实别开生面。”

谷歌用 Gemini 大语言模型阅读 500 万篇新闻，为 150 国标注山洪风险

谷歌的新思路：用500万篇新闻，为150国预警山洪

相关阅读

最新教程

最新资讯