查看原文
其他

独家 | 雷达图像预测未来降水?CIKM AnalytiCup Top1 清华团队思路分享(附代码)

2017-09-04 李中杰 姚易辰 数据派THU


《基于雷达图像的短期降水预报》是由ACM顶级数据挖掘会议 C I K M 举办的数据科学竞赛。CIKM 2017以“智慧城市,智慧型国家”为主题,通过人工智能同各学科领域的交叉研究,通过技术手段有效管理城市。


本次 CIKM AnalytiCup 2017深圳气象局与阿里巴巴联合承办,旨在提升基于雷达回 波外推数据的短期降水预报的准确性。比赛共吸引了来自全球1395个团队,来自清华大学的Marmot团队(姚易辰,李中杰)在比赛中脱颖而出,在复赛中以绝对优势排名第一。本文摘录了他们团队解题方案的核心思路予以展示。


比赛官网:阿里天池大数据平台

完整解题方案及代码

https://github.com/yaoyichen/CIKM-Cup-2017


赛题目标


  • 赛题提供10,000组的雷达图像样本。每组样本包含60幅图像,为过去90分钟内(间隔6 min,共15帧),分布在4个高度(0.5km, 1.5km, 2.5km, 3.5km)上的雷达反射率图像。


  • 每张雷达图像大小为[101,101],对应的空间覆盖范围为101×101km。每个网格点记录的是雷达反射率因子值Z。反射率因子,表征气象目标对雷达波后向散射能力的强弱,散射强 度一定程度上反映了气象目标内部降水粒子的尺度和数密度,进而推测其与降水量之间的 联系。


  • 目标:利用各个雷达站点在不同高度上的雷达历史图像序列,预测图像中心位于[50,50]坐标位置的目标站点未来1-2小时之间的地面总降水量,损失函数为降水量预测值与真实值的均方误差


算法架构


本次比赛的特点在于时空序列的预测,即给出了目标站点周围一定空间范围的历史信息,需要预测在站点坐标上未来的降水走势,因而搭建时空之间的关联特性为解决问题的重中之重。同时有别于一般的计算机视觉问题,此次比赛提供的气象图像,其沿着时空方向的演化规律会满足一定的守恒律及连续性限制,发现物理问题的特殊性并寻找对应的表征量也是解决问题的关键。


解决方案的流程分为前处理,特征提取,模型训练三个部分。前处理步骤中,完成局部图像的拼接,并通过SIFT描述子寻找时间方向的对应关系,获得云团运动的轨迹。特征描述中,将问题的特征归纳为3部分,分别为时间空间方向的矢量描述,云团形状的统计描述,及由云团轨迹外推得到目标站点的雷达反射率的空间图像描述。模型训练主模型采用了卷积神经网络CNN,图像部分采用2层卷积池化,随后将向量拉平到一维,即在全连接层与其余非图像类特征合并,共同输入到2个隐藏层的神经网络中。



图像拼接


赛题给出的局部雷达图像,样本与样本之间并不完全独立,图像样本之间存在一定的重叠,可以通过模板匹配的方式寻找样本之间的坐标关联特性。通过样本之间的局部图像拼接,能够将一系列小范围的局部雷达图像恢复到空间更大范围的雷达图像,进而获得关于云团更加整体的特性。通过局部图像的拼接,能够获得如下两方面效果:


  • 为目标站点的时空轨迹追踪提供更大的空间延伸量。目标站点附近更大的空间图像范围,能够对应更长的时间外推量


  • 获得云团整体的结构,方便从更为宏观的视角提取特征描述云团形态。



轨迹追踪


根据流体力学中的泰勒冻结假设(Taylor Frozen Hypothesis),流场中存在显著的时空关联特性,即可以认为雷达反射图中云团在短时间内趋向于在空间以当地平均对流速度平移,短时间内并不会发生外形或者反射强度的剧烈改变。即监测点 x 处在未来 τ 时刻后的 雷达信号 f ,能够通过平均对流速度 U ,从当前时刻 t 位于坐标的 x - U τ 的信号中体现:



为了寻找每个空间坐标对应的对流速度 U , 可以通过SIFT描述子在一定时间间隔内,在空间坐标上的匹配,寻找相同关键点在较短时间间隔 δ t 内像素的平移量 δ x ,即得到空间每个位置处的对流速度。



下图给出了相邻两帧图像上,SIFT描述子及相应的空间匹配关系。其中圆圈大小对应了关键点的特征尺度,圆圈中的刻度方向表征其主方向。两帧图像的匹配连线基本平行, 即全场以一个近似相同的速度作对流运动。



特征提取


特征包含时间外插反射率图像时间空间的矢量云团形状的统计描述三部分。


  • 时间外插反射率图像:由上述的图像拼接及轨迹追踪后,能够定位出全场的速度矢量见 下图。以泰勒冻结假设和关键点匹配追踪到未来1.5个小时流场速度矢量后,能够外插未来每个坐标点的运动轨迹,即能够推测出未来位于目标站点上方的云团,在当前时刻雷 达图像上的空间坐标。 图中白色圆圈坐标点的云团,会在1.5小时由图中对流矢量的作用下,运动到红色目标站点上方。因此截取空间轨迹上白点周围41×41大小,3个空间高度 (1.5km,2.5km,3.5km)的局部图像作为卷积神经网络的图像输入。



  • 时间和空间特征提取: 在时间和空间方向(高度方向)提取图像像素的统计值(平均值、 最大值、极值点个数、方差等等),作为时空特征的描述输入CNN的全连接层。


  • 全局云团形状特征提取: 某些特定的云层形态会对应典型降水事件。从拼接后的全局图像 中提取云团形状的整体形态特征,包含雷达反射率的直方图和统计类信息、云团运动速 度和方向、加速度、流线曲率、SIFT描述子的直方图、监测点位置、检测点反射率与最大值比值等。



训练模型


  • 卷积层中图像的输入为时间外推得到目标站点附近41×41的空间范围,采用较大的空间图像输入,希望能够包含轨迹预测的误差以及测评目标在1小时内的总降水量。图像部分采用 2层卷积池化,随后将向量拉平到一维,即在全连接层与其余非图像类特征合并,共同输入到2个隐藏层的神经网络中。


  • 模型通过dropout防止过拟合,keep_prob取值为0.65,梯度下降采用的Adam优化算法。1200个迭代步后即达到稳定。


总结


虽然此前参加过多次大数据竞赛,但初次涉足图像类比赛能够获奖也是非常之意外。本 次解题方案并未使用ImageNet上较为流行的InceptionNet或者ResNet,即用深度的图像卷积网络来做训练。而是针对气象问题的特殊性,针对时间空间关联这一重要线索, 采用传统的关键点提取SIFT方法与卷积神经网络CNN结合的形式预测目标站点的降水量。



由于思路的特殊性,团队在未做调参的情况下已经能够大幅领先其他队伍。未来会对气象业务有更多探讨,用大数据力量推动气象预报的发展。感谢天池大数据平台组织比赛,感谢深圳气象局提供比赛数据,感谢CIKM2017组委会。


最后欢迎大家对于现有解题方案提出宝贵意见。队伍成员的邮箱是:


姚易辰:yaoyichen23@163.com

李中杰: lizhongjie1989@163.com


完整解题方案及代码:

https://github.com/yaoyichen/CIKM-Cup-2017


本文作者姚易辰、李中杰同时也是数据派研究部的志愿者,本文系两位独家经验分享,想和他们成为小伙伴儿?点击今天第二条推送,加入数据派研究部吧!

姚易辰,数据派研究部志愿者,清华大学工程力学系博士生。天池大数据平台top10选手,曾获天池大数据IJCAI16口碑实体商户推荐赛冠军和菜鸟网络最后一公里极速配送冠军,擅长数据分析及图像处理。

李中杰,数据派研究部志愿者,清华热能系博士生。擅长数据分析处理及机器学习算法Python实现,对大数据技术充满热情,曾获天池大数据IJCAI16口碑实体商户推荐赛冠军和菜鸟网络最后一公里极速配送冠军。


数据派研究部介绍



数据派研究部成立于2017年初,以兴趣为核心划分多个组别,各组既遵循研究部整体的知识分享实践项目规划,又各具特色:


算法模型组:积极组队参加kaggle等比赛,原创手把手教系列文章;

调研分析组:通过专访等方式调研大数据的应用,探索数据产品之美;

系统平台组:追踪大数据&人工智能系统平台技术前沿,对话专家;

自然语言处理组:重于实践,积极参加比赛及策划各类文本分析项目;

制造业大数据组:秉工业强国之梦,产学研政结合,挖掘数据价值;

数据可视化组:将信息与艺术融合,探索数据之美,学用可视化讲故事;

网络爬虫组:爬取网络信息,配合其他各组开发创意项目。


点击文末“阅读原文”,报名数据派研究部志愿者,总有一组适合你~


点击“阅读原文”加入组织~

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存