【速记】春秋航空 瞿孝巍:春秋航空的大数据之路
5月3日,由星环科技主办的“2018第二届前沿科技论坛暨星环用户大会”在浦东香格里拉酒店顺利召开。本次大会,星环科技联合众多合作伙伴、用户展开应用案例分享,让更多行业人士了解大数据在不同行业中的应用效果。
【大数据在航空领域的应用案例】
【演讲主题】春秋航空大数据实践—大数据之路
【演讲内容】春秋航空研究所技术总监瞿孝巍向我们分享了春秋航空的大数据实践。演讲内容主要包括以下三个方面:
一、大数据对于航空公司的意义;
二、春秋航空大数据的发展历程;
三、航空大数据面临的问题。
大数据对于航空公司的意义
讲大数据之路,在各种传统企业里面,大数据技术我认为应用得还不是很广泛。首先来看两个案例。第一个是我是在准备演讲的时候临时在部门中拉了三个小伙伴做了这么一个测试,是某打车APP。下午5点08分三个小伙伴同时搜索去虹桥火车站,最高是31.5元,最低是15.9元,大家不用怀疑数据的真实性,是我当场拉着三个同事试的,你们会后也可以试一试,看看是不是有存在这样的情况。这个情况我们有一个名词称之为“价格歧视”,很多人可能听说过,还有一种比较亲民的说法叫“杀熟”。
因为我自己既管着数据部门也管着研发部门,我发现哪怕是IT研发部门的同事对于大数据感觉还是比较遥远的。他们很多时候没有意识到大数据已经发生在我们的身边了。各个公司不仅仅是打车软件,包括很多电商还有一些传统企业的电商都已经做到这个样子了。针对你实际的用户画像给出一个他认为比较合适的价格。他为了避免公众舆论方面的压力是通过券的方式让你感觉舒服一点,我当时嘲笑价格最贵的同事说你肯定是消费能力比较强。他自己在说,他只是没有券。券在很大程度上改善我们对大数据“杀熟”的体验。
再看下一个案例,这个案例跟航空公司关系比较大,图片显示的是2017年3月份网站搜索上海-南宁的机票的一个搜索量。
南宁在广西,纵轴代表的是搜索量,我们理解的是市场需求从0到3000。横轴是销售提前期,从右往左看是0到30天,销售提前期今天买明天的票是今天购买是提前一天,一个航班在前一天的需求最旺盛,我们看图上也能看出来,颜色区分的是航班,3月27、28、29、30号的航班,到了销售提前期一天的时候需求最旺盛。
但是,图上也看出来一些不容易发现的问题,3月30号的航班不仅仅在销售提前期一天的时候市场需求量比其他的航班多很多,同时它是提前30天可以看出来这个航班的市场需求远远大于其他的时间。什么原因?原因是广西那边的少数民族壮族要过他们的节日——壮族三月三。刚好2017年我们的3月30号壮族三月三以后又连着一个清明的小长假,组成了比较长的假期,用户选择在这个时间去广西南宁玩。我们不是为了好玩来分析,我们是希望提前知道这样的市场需求,从而给出一个航空公司的定价策略,获取更大的收益。
但是我们也知道通过研究节日成本太大了,中国有56个少数民族,如果要对每一个少数民族的节日都去做针对性的研究可能成本太高了,所以我们把这样的一个节日一旦转换成搜索量,只需要对搜索量进行监控了解一个市场的潜在需求可以给出合理定价,帮助航空公司获得更大效益。
航空公司肯定不是客运机构,我们还是以用大数据解决实际的业务问题为主。航空公司的目标是什么呢?
第一是多赚钱,增加营收,处理客户关系。
第二,降低成本。我们春秋航空是一个低成本航空公司,成本抓得更紧,降低成本对我们更加重要。这两个也是很多企业都有的问题,一个是多赚钱。一个是降低成本。
还有一点是航空公司特有的,提高安全水平。我们都知道航空公司一旦出事情就是大事情,所以对于航空公司,安全水平的要求比其他任何行业都来得高。春秋航空基于这三个目标做了大量的数据分析,航空公司业务非常复杂,我们如果要做好大数据,有将近100多个信息系统,我们需要从100多个信息系统中获取需要的数据。图上可以看到一部分,这些都是比较大的。
春秋航空大数据的发展历程
春秋航空大数据起步比较晚,从2013年才开始做数据相关工作,做的主要是跟营销收益报表、统计分析相关。到了2014年当时是我们的CTO带队,打造了一个产品,春秋航空的第一个数据产品,我们叫企业驾驶舱。这个产品非常有意思,我们老板每天都会了解整个企业的经营状况、各个部门的运营状况。为了让他的信息掌握不会滞后,我们IT部门提前将各个业务部门的数据每天从各个业务部门收集过来导入到企业驾驶舱里。
我们老板每天凌晨3点就会看这些报表,为了确保他每天3点能看到数据,我们每天2点钟会提前检查,看数据进去了没有。这个产品老板非常满意,满意了以后不满足,他希望我们把数据能够赋予整个公司,希望我们做整个公司的数据分析,服务各个业务部门。到了2015年我们为了响应领导的号召,完成这样的一个目标,我们搭建了一个开源的大数据平台,做了个性化推荐、精准营销方面的工作。
但是,我们当时也比较坎坷,因为2015年时候大数据还有很多不成熟的地方,我们一个项目组5个人过多的关注于平台建设,具体解决业务问题关注比较少,最后人员流失很厉害。公司不关注平台建造有多,关注你在平台上创造的价值。我是2015年加入春秋航空的,我加入春秋航空整个大数据团队只剩下一个人,我当时看看这个团队,再看看我自己。这么大个坑我填进去也填不满,想想算了让那个兄弟顶一顶,我另辟蹊径了,选用了传统的Oracle和Kettle的数仓和ETL工具,搭建了真正意义上的春秋航空的数据仓库,还有我们的实时交换的ODS产品。
这些工作是在2016年做的,但是从本意上讲我希望把这件事情做好。到2017年我们的开源数据库挂了,我要想办法解决。由于我们是开源的,所以说解决问题的效率相对会比较慢,也只有一个同事。最后我通过私人关系联系了星环,星环的同事跑过来,他们帮我们把开源的大数据平台修好了。
这时公司领导开始重视了,觉得可能一个企业更多是要关注于企业平台上的应用,不应该过多做科研和技术攻关。2017年我们引入了TDH,当时直接采购了几十个节点。刚刚已经说到了春秋航空不是搞科研的,我们还是要基于这样的一个平台做一些有业务价值的东西,所以从立项开始我们定义的目标是TDH一旦上线我们必须要有生产应用在上面跑,不做研究,不能够领导画个饼,最后什么时候吃到不知道。我们是今年上线了TDH产品,上面跑了应用。下面介绍一下我们基于TDH做的我们的应用。
首先看一下春秋航空的财报,2017年收入是109亿,利润是12亿。因为航空公司是重资产低利润的行业,所以刚刚说到想多赚钱,节约成本其实是大头。所以我们的第一个数据产品就在节约成本方面最快发挥作用。航空公司的航油成本占了30%到40%,还有其他的成本,比如说飞行员的工资。我们不可能降低飞行员的人力成本,还是要从航油上面去考虑。
航油要节约道理上也不是很难,跟开车的逻辑差不多。假设我们从这边现在要开到虹桥机场,可能会先百度一下看看哪些路不拥挤,可能会选择一个经济的路线。同时开车还有驾驶习惯,有些司机油门一脚轻一脚重,有些司机比较温柔,油耗比较低。开飞机用这些道理讲也差不多,但是飞机的航油为什么难做呢?要节油首先有个前提就是要对飞机的日志信息进行分析。飞机的信息通俗一点讲就是飞机的黑匣子,黑匣子我们都知道,事故调查都要看,黑匣子每1/8秒会把飞机上各个设备仪器3000多个参数记录下来。飞机一天在天上要飞10几个小时,一年下来数据量非常大,一架飞机一年会产生将近一个亿条数据,我们现在是80架飞机,一年是80亿条的数据,要做好节油工作首先要把80亿的数据处理问题解决掉。所以刚好这个点我们引进了TDH。
看一下基于TDH到底做了什么样的模型帮助公司节油?首先最经典的是CI监控,什么意思?CI是我们的成本指数,简单地理解公司给出的我们油耗的标准相当于油门,公司说飞行员油门怎么踩按照这个指数来就行了。但是指数是一直不能被监控的,导致每次开公司的会几个业务部门吵架,财务部门跟老板说这帮人现在油耗越来越厉害,他们在浪费钱。老板看看地面的加油部门说你们的油耗厉害了。地面部门说是飞行员油门大了,他们拼命在天上踩油门导致航空公司的成本上去了。飞行部说,你说高你讲讲看谁高,拿不出来。
吵了几次,很多时候企业部门打架责任就定在IT部门了,说IT没有能力监控飞行员的油门,我的老板说我们就做这个事情,回来后就开始做。老板拍的时候心里不一定知道我们确实能够做出来,刚好我们买了TDH,能够处理这么大的数据量。
我们看到这个图是我们做的一个监控,绿颜色的点代表的是飞行员的油门水平比较高,符合油门。红色的点代表飞行员油门踩大了,有了这样的一个直接的数据模型,业务部门不吵架了,几个业务部门一起开始推动CI油门的水平。看这个图,业务部门一旦不吵架了,4个月整个CI监控执行率从50%多提高到了69%,国际航线提高到80%多。领导比较满意,IT在业务这边建立了自己的地位,我们也势如破竹不仅做了这样的模型。后面做了直飞优化。
图上可以看到,蓝颜色的线是飞机在飞行前做的飞行计划,飞机飞行计划只是一个标准,实际因为各种管制原因、天气原因飞机不可能严格按照这么一个飞行计划飞,既然不严格就带来了一个节油空间,走近路肯定节油,绕着飞要多浪费油。我们建了这个模型后就对数据进行了海量的分析,之前抄近路很难有一个标准,因为当时的情况不一样。基本上都是基于飞行员自己的经验,有经验的机长会选择直飞,新手会老老实实地飞。有了这个模型我们提前分析出了大量的直飞的机会给到地面部门,告诉他们你们提前知道这个点可以申请直飞就直飞,通过这个模型也节约了不少。
下一个是高度优化,大气层越往上越稀薄,飞机飞得越高阻力越小,意味着我们越节油,飞得多高好呢?没有一个标准。我们根据后来把数据监控后建了一个高度的模型,蓝颜色的线同样是飞行计划的线,我们可以分析出哪些点可以真正得到优化,红色的点是飞得比较多的点可以飞得更高,节更多的油,高度优化对我们的节油水平更大,比前面几个厉害。我们今年也做了几个高度剖面的推荐。
看一下成果。我们可以看到因为节油项目去年在起步,起步之初已经取得了比较大的成绩,每小时能够为公司节约20公斤油。什么概念?我们80架飞机一年将近在天上呆30万小时,乘以20公斤就是好几千万。随着这两年油价越来越高,节油水平也是越来越高。
航空大数据面临的问题
除此之外,我们还是总结了不少航空大数据面临问题,希望也能够和大家分享。
首先,企业的数据意识不足。我认为数据分析是一种文化,文化的阻力在于断层,断层什么意思?业务部门和业务部门之间的立场不同,会存在一种断层。IT部门和业务部门中间的断层尤其厉害。因为IT部门不知道业务到底需要解决什么问题,我们只有技术。
第二,缺乏数据。有两种情况:一种,我们压根儿没有收集这些数据,现在有些机场开始做行迹跟踪,要做好行迹跟踪成本很高,每个机场要投资几千万的成本才能把数据收集到。还有一种是我们收集了但是没有用,比如舱音数据,什么意思?飞机飞行过程中对驾驶舱的数据进行录音,飞机飞多久要录多久的声音,这个要听分析难度非常大。
第三,数据太多,现在各种各样的要求说数据重要,企业数字化转型,但是IT部门一旦收到这样的指令就开始收集数据,收集数据的时候态度通常是不管怎么样先收集数据,想着将来肯定有用,这是很多IT部门都在做的事情,什么数据先收集起来,很多利用不到,造成成本上的浪费。
第四个问题,过分注重于数据平台的建设。2015年的时候我们抽出了精兵强降5个人做大数据平台,事实上这5个人一年到头都在做大数据的运维、攻关解决问题,几乎没有解决实际的业务问题。2016年年底我们也是对整个的数据中心进行了梳理,我们梳理了8个子系统,几百个模块,这些模块直到今天也只实现了一部分。这个说明什么呢?说明企业的数据投入大部分的情况下都在做平台建设,老板其实是不接受的,老板关注的是你的数据分析出来什么问题,创造了什么价值。
第五,数据治理和数据应用的脱离。这两年由于一些互联网公司的兴起他们对数据治理非常重视,这幅图代表了大家的愿景希望通过数据治理把原来乱七八糟的数据梳理成看上去工整的结构,实际上在我看来数据治理就是补文档,文档补好了数据结构又改了。数据治理就是走形式,很难达到实际的效果,公司要做数据治理投入的成本非常大,效果只能够最后出来一张图给公司领导看看。
第六,最严重的问题是数据人才的匮乏。百度百科上对数据科学家6种能力的定义,包括研发能力、统计能力等等,同时拥有这6种能力的数据科学家基本上企业是可遇不可求的,企业会降低门槛要求掌握一部分能力的人作为我们企业的人才储备,其实掌握了这些能力达不到我们的要求。我们真正需要的是既懂业务又有分析技术能力的人才,这些人才是企业缺乏的。
为了解决刚才的问题,我们2017年梳理了数据的六大能力:收集、计算、服务、挖掘、复杂、治理能力。收集能力保证实时性、准确性。计算能力保证大规模并营计算、流失计算。这部分能力我们现在是完全交给星环,我们纤细的数据团队专注于下面四个能力的工作,我们有自己的算法团队,同时我们为了提供整个企业的数据服务,基于源数据搭建了OneService服务,懂业务的数据人才是最少的,为了对业务赋能开发了不少的数据产品包括数据资产门户、数据质量监控还有自助分析工具。
讲到这里已经基本上所有人都猜到接下来讲什么,航空大数据未来展望,后面一定是人工智能,我刚刚也说了航空公司是一个专注于收益的部门,不是科研机构,我们不太会做一些底层的算法研究,我们更多的是利用一些成熟的现在相对可应用的人工智能技术对于企业各种产品进行赋能,包括语音识别、人脸识别、图像识别等等。介绍一些场景,这个是刷脸登机登机的时候要拿出身份证,脸要一板,一道一道关要过,这个对我们来说体验不好,队伍很长,通过刷脸识别可以提高效率。
还有飞机定检、维修,飞机维修只有等到飞机降落的时候才能做这些事情,机务人员有大量的手册,修飞机是专业的事情,我们通过图像识别可以快速定位到手册,拍一下具体哪一个位置可以快速知道这个问题、部位对应手册哪里,极大缩短了维修时间,提高维修效果。
语音识别,我们驾驶舱的录音记录下来,但是由于没有投入这么多的人力成本做实时的监控,怎么办?我们现在打算把这样的录音转化成文字,通过对文本分析发现一些问题,有针对性地听我们当时到底是什么样的情况,覆盖更多的舱音监控。
现在手机很多人已经不用键盘输入了,基本上都是用语音输入,我们现在也是希望把这样的语音输入和语音助手的功能加入到整个企业的各个产品线,提高各个产品的实际的产品的工作效率。以上内容就是我这次的分享,谢谢大家!
以上所有内容以嘉宾现场描述为准
点击或回复关键词,查看相关内容
公司
投资 | 星环科技获腾讯领投2.35亿C轮融资,与腾讯云达成战略合作
产品
产品 | 星环的划时代版本-Transwarp Data Hub 5.0
评测 | 大数据产品最新测试基准看哪家(TPC-H or TPC-DS)?
Holodesk | 业界最强的SQL引擎Inceptor为何这么快?
认证考试 | 数据中心联盟—星环联合认证体系首次认证考试报名中
技术
评测 | 大数据产品最新测试基准看哪家(TPC-H or TPC-DS)?
TED视频 | TEDxLujiazui精彩视频:【大数据 大趋势】
白话大数据 | 白话大数据合集
深入机器学习 | 深入机器学习系列合集
案例
智能金融 | 星环科技发布证券业大数据战略规划纲要(白皮书)
运营商 | 运营商的新方向-运用Hadoop技术将大数据资产变现
视频监控 | Hadoop大数据在实时视频监控的应用场景
能源 | 厉害了,我的营销大数据!
速记
【速记】国家农业信息化工程技术研究中心 陈天恩:农业大数据的研究与实践
【速记】同济大学教授 王伟:同济-星环“数据科学与大数据实践平台”建设