利用大数据“看天吃饭”?亿级APP的机器学习深度应用实践!
约友出行被拒,理由是“墨迹天气(以下简称墨迹)”实时空气质量提示 PM2.5 指数爆表。和大多工具类 APP 商业变现方式一样,墨迹也是各种简单粗暴的广告。
根据 2016 年底墨迹提交的创业板招股书中显示,广告营收占比 95% 以上,年利润 2000 多万,可谓押宝广告赚满钵。
押宝广告的变现方式真的能走远吗?从墨迹的使用场景看,它的用户粘性和产品矩阵还有待提升,这也直接影响到未来的广告转化率。
近日了解到,墨迹从 2015 年底到 2016 年初,便开始布局 B 端的业务,基于公司发展积累的技术人才、海量气象数据和对气象领域的研究及国家对气象数据的开放程度,为对气象有特殊需求的行业提供企业级气象服务,这又将是一种新的吸金方式。
无论是 C 端的流量变现还是 B 端的定制化气象服务解决方案,想要商业化成功,气象数据是基石。
墨迹高级技术总监王磊介绍,从塞班那个年代,墨迹 APP 创始就开始积累数据直至今日,原始数据全部保留。
近四五年,细分领域的大数据变得越来越重要,墨迹也开始发力,建设大数据平台和投入人力,试图从海量气象数据中,找到用户及天气预报中的模型和规律。基于这些做个性化推荐,精细化服务,当然也包括商业化运营。
海量气象数据的来源与分析
01
数据来源
做气象预测,观测数据是充分必要条件,直接影响预报的准确性。观测数据理想的状态是观测点足够多,气象预测就会更精准。如在北京布设 100 个点,可北京面积广阔,点与点之间的温度、气压又是多少?
墨迹的数据主要来源于三方面:第三方气象组织、各种设备传感器和时景社区。
第三方气象组织
和其他气象公司合作,如中国国家气象局,美国 NOAA(美国国家海洋和大气管理局)的 GFS,欧洲 EC(欧洲中期天气预报中心),日本气象卫星数据以及中国国家气象局的数据等。
这些组织有全球观测数据,这些观测数据通过卫星做遥感,所以质量相对较高,每天约有 500G 左右的量。
各种设备传感器
如墨迹 C 端用户的手机基本都带有气压计、温度传感器。还有和外部的通用汽车合作,汽车上也有余量计,传感器且量非常大。还有魅族、华为手机也预装了墨迹 APP,可从中获得相关数据。
这部分数据量每天约 8000 万左右,但由于形式不一,每个设备上的数据都有偏差波动,导致质量参差不齐,要进行统一化的处理才能投入使用。
时景社区
就是实时天气社区,每天约有十万天气照片上传到时景社区,总气象图片资源达亿级,是目前国内最大的实时天气图片社区。
02
数据分析
墨迹的数据分析分为两部分,一部分是 0~2 两个小时的短时预报和 2~8 小时的短临预报。另一部分是 8 小时到 15 天的中长期预报。
机器学习主要用在短时预报,主要采用业界比较先进的神经学习网络,如用 FCN 网络(全卷积网络)和 Conv-LSTM 网络(长短时记忆网络)等这些具体的分支,实现把不同来源的数据做噪音的排除,之后融合,去学习这些气象数据在历史上的变化趋势。
短时预报除 C 端用户可以在出门前查看实时天气之外,B 端用户也可以结合气象,节省成本,提升效率。
墨迹商业化 VP 张明明介绍,像运输、末端物流、农业等行业对短时预报的需求相对较高。例如中石油物流配送案例,双方把历史天气数据和中石油的销售数据整合,进行模型训练,帮助中石油解决周期长且跨省的资源调配问题。
短时预报采用的技术是机器学习,中长期预报是另一套体系,以下内容将围绕短时预报具体的发展历程、技术细节等内容展开。
机器学习在墨迹天气的应用实践
01
短时预报的发展历程与系统架构
墨迹短时预报系统是从 2015 年纠察小队长内测开始发展,一步步趋近成熟。如下图,是墨迹短时预报的发展历程:
在整个的发展历程中,墨迹有三次里程碑事件:
2016 年 8 月,首度利用深度学习 CNN 网络处理雷达回波中的噪音,对于单独的雷达噪音和部分混合的雷达噪音有效。
2017 年 3 月,利用人工智能技术和传统模式预报技术的结合,在没有雷达覆盖的区域增加 GFS 预报数据作为补充数据源,准确率进一步提高。
2017 年 5 月,深度学习算法应用在短时核心外推环节。
如下图,是墨迹短时预报的顶层设计:
墨迹短时预报的顶层设计由输入(数据源、反馈、WRF)、中间层(去噪、外推)和输出(预测图)三部分构成。
02
短时预报系统所涉及的主要技术
短时预报系统使用的技术有很多,这里主要分享两部分:
算法模型。有深度学习图像去噪算法(CNN 网络)、深度学习图像外推算法(RNN 循环网络)、机器学习雨雪分辨模型(SVM 支持向量机分类)、模式预报数据融合等。
算法实现。有 Google Tensorflow 深度学习框架、Caffe 深度学习框架、Opencv 图像处理库、Sklearn 机器学习库等。
去噪技术
去噪问题在深度学习里可以归结为一类叫做“图像语义分割”的任务,相对于普通的图像分类的任务,这类任务要求对图像的每个点标记它的类别,而对应雷达图去噪,就是需要逐点的标记这个像素点是正常回波还是噪音。
墨迹通过人工搜集的方式,积累大量的噪声数据集,并进行人工标记,投入训练。目前,去噪环节已经迭代了三个版本。
外推技术
外推技术采用的是 RNN(循环神经网络)算法。如下是 RNN(循环神经网络)简易图:
预报问题属于时序问题的一种,循环神经网络非常适合处理时序相关问题。
如下是 LSTM(长短期记忆网络)网络简易图:
短时预报外推需要进行多次循环计算过程,传统循环神经网络在如此多的循环过程中会明显丢失网络初始输入数据特征,从而导致外推出来的图片准确率很低,长短期网络可以明显改善此问题。
墨迹使用最近历史图片按时间先后顺序输入循环网络,然后网络会根据图片的变化趋势结合历史变化规律生成未来预测图。
雨雪分辨技术
如下图,是基于 GFS 预测数据的雨雪预测:
如下图,是基于模式预报数据的雨雪分类:
由于短时预报结果只能预报出降水情况,无法区分降水的类型,所以需要额外模型来对降水类型进行判断,雨雪分辨模型做的就是通过机器学习方法判断降水类型是降雨还是降雪,以提供最终的实况天气类型。
数值预报技术
如下是全国雷达站覆盖图:
如下是模式预报数据:
目前,墨迹也在做一些传统的数值天气预报方面的研究和应用。
人们从上个世纪开始用数值天气预报的方法解决天气预报的问题,通过求解一系列描述大气运动的动力学、热力学偏微分方程组的数值解,来计算大气未来的状态,从而预测出未来的天气。
但是这种预报方式的发展依赖于计算机技术的发展,因为它的计算量相当的惊人,每个时间步长有着五亿个空间格点、综合考虑空间尺度延伸几百米到几千公里、时间尺度遍及几秒到几周不等。
目前墨迹的气象研究团队也在从事相关的研究和应用,最细的 3-5km 的模式分辨率,每个时间步长需要计算上百万(140万)个空间格点,计算量也是相当的惊人,需要动用超算或集群的资源才能应用。
关于未来
当前,气象领域的市场竞争愈演愈烈,不知道墨迹这条基于海量气象数据分析的领先技术,为企业级用户提供企业级气象服务的吸金路能走多远,但至少墨迹从功能类APP运营商向互联网综合气象服务提供商的转型,使得墨迹的路越走越宽。
作者:王雪燕
编辑:陶家龙、孙淑娟
来源:以上内容由编辑王雪燕对墨迹天气高级技术总监王磊的专访整理而成。
投稿:有投稿、寻求报道意向技术人请联络 editor@51cto.com
精彩文章推荐: