查看原文
其他

​Nature:数据驱动地球系统科学的深度学习与过程理解

王硕 集智俱乐部 2022-05-09


导语


2019年,德国马克斯普朗克研究所、美国劳伦斯伯克利实验室等机构的研究者,合作发表于 Nature, 题为 Deep learning and process understanding for data-driven Earth system science 的综述文章(目前总引用已接近1000次)。系统阐述了大数据时代,地球系统科学所面临的挑战与机遇,深度学习方法在该领域的应用案例,存在的问题,以及未来的发展方向。


集智俱乐部将组织地球系统科学读书会,自2021年12月14日开始,每周二晚上19:00-21:00,持续时间预计 7-8 周,重点探讨近年来系统科学、人工智能等学科为地球系统科学提供的创新研究方法,尤其是统计物理与深度学习在地球系统科学中的应用,共读前沿文献,激发科研灵感。欢迎从事相关研究、对相关领域有浓厚兴趣的探索者报名参与交流。详情见文末。


研究领域:地球系统科学,数据驱动方法,深度学习

王硕 | 作者

刘培源 | 审校

邓一雪 | 编辑

 

论文题目:

Deep learning and process understanding for data-driven Earth system science

论文链接:

https://www.nature.com/articles/s41586-019-0912-1


 



1. 摘要



机器学习的方法已被广泛应用于地球系统中,但是数据中所蕴含的时空信息并非被最优地建模。本文作者认为,与其修补传统机器学习方法,不如使用深度学习模型来自动提取数据中的时空信息,以提高季节性预报和多时间尺度长程空间关联的建模能力。并进一步,构建混合模型,将物理过程建模与灵活的数据驱动建模相结合。





2. 背景




地球科学领域的数据在激增,以 CMIP5 气候模式为例,数据总量已达 3PB,而下一代的 CMIP6 更是达到了 30PB。地球科学的数据也具有大数据的 “4V” 特点:volume(数据体量大), velocity(更新速度快), variety(种类多样) and veracity(不确定性高)。地球科学的研究者需要面临以下两个问题:1. 如何从海量中提取有用信息;2. 在遵循物理规律的前提下,设计可以学到比传统数据同化方法更多信息的模型。


图1 大数据时代地球科学所面临的挑战





3. 深度学习在地球学科中的机遇



传统机器学习方法受益于特定领域的、手工制作的特征,以表示时空信息,但是往往无法充分挖掘其中的时空依赖。例如在遥感领域,可以输入地形、地貌、纹理等特征来融入空间信息。这种做法类似于早期的计算机视觉,通过边缘、纹理、形状、颜色等特征来表征物体。虽然有好的可解释性,但是也存在冗余,且并非最优的特征表示。而深度学习使得我们不在局限于以上的方法。


深度学习在计算机视觉、语音识别、控制等领域取得了巨大的成功,同时也被应用于物理、化学、生物等领域。但是在地学领域尚在初期。在几个关键问题上,比如分类、异常检测、回归、时空依赖状态预测等,已经出现了有前景的应用案例。比如极端天气,飓风的检测,风暴,大气河的分类等。这类方法无需使用主观的人标注的的特征。深度学习通常被分为空间学习(用于图像分类的卷积神经网络)和序列学习(语音识别),但是在地学领域,将二者融合的视频/运动预测更受关注,因为这与很多动态地球科学问题有惊人的相似之处,比如大气与海洋的传输,火灾蔓延,土壤运动,植被动力学等。


图2给出了典型的深度学习应用任务及其对应的地球科学问题。a. 图像分类与定位对应于极端天气的分类。b. 图像的超分辨可以应用于气候模式的统计降尺度。c. 视频预测类似于地球系统变量的短期预报。d. 语言翻译与动态时间序列的建模。


图2 典型深度学习模型与其所对应的地球科学任务





4. 深度学习在地球系统科学中的挑战



经典的深度学习应用与地球科学的应用有很多相似点,但是也存在许多差异。例如,传统的机器学习任务中,图片只包含红绿蓝三个通道,但是在高光谱卫星中,往往拥有除可见光以外的,数百个光谱通道。这导致变量之间相互依赖,违背了独立同分布的假设。此外,数据还表现出不同的时空分辨率,物理意义,上下文信息和统计等。同时还伴随不同的噪声,不确定性,数据缺失和系统性数据残缺等。此外,数据的光谱、时空维度也给计算带来了挑战。数据的标注也更加困难。例如,如何定义“干旱”是要比 ImageNet 中定义猫狗更难。这导致缺乏足够高质量带标签的训练数据。作者总结了地球科学领域应用深度学习方法的五大挑战:1. 可解释性;2. 物理一致性;3. 复杂且不确定的数据;4. 有限标签;5. 计算的需求。





5. 与物理建模融合



过去,物理建模与机器学习被认为是两个完全不同的科学范式(理论驱动与数据驱动)。但实际上,二者可以进行相互补充。前者可解释性、外推能力强。后者对数据的适应性、发现数据规则的能力强。作者给出了如下几种融合方式:1. 改善参数化;2. 用机器学习模型替代物理子模块;3. 分析模型与观测的不匹配;4. 约束子模型;5. 替代模型或仿真。


图3 物理模型与机器学习模型的耦合方式





6. 总结



深度学习为地球科学提供了有前景的方法,但是也存在挑战。作者为地学领域的深度学习研究提出了以下四点建议:1. 认识到数据的特殊性,建模的时候要充分考虑到数据的多源、多尺度、高维、复杂时空依赖性。2. 模型不仅要准确还要可信,要考虑到物理规律。3. 不确定性估计,模型要给出它们的可信度。贝叶斯、概率推断,应该整合到模型中。4. 针对复杂物理模型测试,模型应该在仿真数据上能够得到同样的结论。总之,作者建议未来的模型应该整合基于过程与机器学习的方法。数据驱动方法并不是替代,而是对物理模型的补充与增强。



参考文献
[1] Liu Y, Mathis C, Bajczyk D, Marshall M, Wilbraham L, Cronin L. Exploring and mapping chemical space with molecular assembly trees. Science Advances 7, eabj2465 (2021).
文章附件中可下载计算分子树和设计新分子的程序。
[2] Jacob F. Evolution and tinkering, Science 196, 1161-1166 (1977).
[3] Marshall M, et al. Identifying molecules as biosignatures with assembly theory and mass spectrometry. Nature Communications 12, 3033 (2021).


地球系统科学读书会


从加拿大极端热浪,到德国的洪灾,从澳大利亚的森林大火,到中国河南的特大暴雨,极端天气已经成为新常态。气候变化正以我们所能感知的态势发生着。2021年诺贝尔物理学奖的一半被授予气象学家真锅淑郎和气象学家克劳斯·哈塞尔曼,“以表彰对地球气候的物理建模、量化变化和可靠地预测全球变暖”,表达了对人类命运的关切,也展现出从复杂系统视角研究地球气候环境的必要性。

集智俱乐部将组织地球系统科学读书会,自2021年12月14日开始,每周二晚上19:00-21:00,持续时间预计 7-8 周,重点探讨近年来系统科学、人工智能等学科为地球系统科学提供的创新研究方法,尤其是统计物理与深度学习在地球系统科学中的应用,共读前沿文献,激发科研灵感。欢迎从事相关研究、对相关领域有浓厚兴趣的探索者报名参与交流。


详情请点击:

地球系统科学读书会启动:统计物理与深度学习交叉前沿


    

推荐阅读



点击“阅读原文”,报名读书会

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存