BI自助取数是怎么炼成的?
点击上方
请您点击“与数据同行”以“关注”,坚持原创,思想碰撞,每周一期!
写过一篇《为什么BI取数这么难?》,今天来来谈一谈如何打造一个自助取数平台,仅是一家之言,欢迎拍砖。
首先,自助取数平台很难买到。
也就是,你很难找到符合你企业要求的通用产品,诸如BAT等企业内部的自助取数工具,一般也是自研的,为什么?
一是自助取数是个极度重视数据处理的工具,不仅需要一张可视化的皮,更需要依据企业现状提供数据解决方案,也就是数据和功能紧耦合,很多功能需要根据数据的特点量身定做。
比如,我这个企业有个上百亿记录的HBASE指标库,自助取数产品需要基于这个引擎进行,如何抉择?
二是BI产品越往上走越垂直,到达客户操作一层,操控更加难以抽象,报表可视化可能业界已经有些操作的规则,无非是选择维度和指标,但取数到底怎么个取法并没有固定的套路,它又写又读又查询又分析的,一个字:复杂。
三是自助取数受企业的业务特点影响太大了,有些企业,以清单级的关联取数为主,有些企业,以复杂的汇总分析取数为主,有些企业,取数逻辑简单,但查询的速度要求却很高,不同的业务需求对于自助取数引擎要求可能很大不同,只有基于企业的特点才能得到一个妥协的方案。
四是自助取数迭代要求偏高,企业的数据和分析变换万千,取数要素也必然随之要不停更新,这个工具显然要持续运营的,而产品化的东西,感觉很难跟上。
话说,淘宝魔方本质上也是个自助取数平台,但这个能买得到吗?它其实也很难抽象成通用的产品,只适合电商,甚至只适合淘宝。
其实可以类比,为什么这么多行业分别需要建立自己的C R M系统,市面上不是有很多C R M产品吗,自助取数道理跟它一样,没有包打天下的C R M,也就没有包打天下的取数工具,况且,数据的维度组合无限,而CRM好歹功能算是有限。
BI自助取数要么自研,要么定制开发,很难奢望能有一个通用产品能真正符合要求,这由其特点决定。
其次,务必做好自助取数的可行性判断。
自助取数很能完全替代人,想想也不可能,比如市场综合分析人员冒出的那种海阔天空的分析取数要求,在取数的时候涉及复杂的关联、跟踪等操作,自助取数很难支撑,即使勉强支撑,也会导致功能的极其复杂,带来体验的极度下降。
取数有个特点,越偏向管理,越难取,规则越无法抽象,比如一般取数的难度排名如下:老大-领导-主管-分析-营销-执行,原因很简单,层级越高,人的自主性越大,越不可捉摸,如果老大怎么想的规律被你抓到了,就不要玩了。
因此,自助取数实际只能解决部分问题,到底有没有价值,值不值得做,这就需要事先进行客观的评估。
幸好,一个企业的取数,往往简单通用类的取数还是占据了大部,这为特定企业自助取数工具的成功奠定了基础,比如某些运营商,一线简单的营销清单类取数,规则比较简单,且占到总取数量的60%到80%,而大多时候,这些取数还是在靠IT支撑人员写一个个脚本在取,效率可想而知,这让自助取数工具有了用武之地。
因此,自助取数也是有点时势造英雄的感觉,不在那个行业,没有那个条件,就不要轻易上马一个自助取数项目。
第三,做好自助取数需求的分析,这决定了工具的成败。
自助取数的需求分析是很艰难的工作,有两项最为重要的工作,一是数据需求分析,二是功能分析。
针对数据进行分析,需要对历史的取数工单进行系统分析,至少能得出以下结论,字段属性的排名并作取舍,模型的分析并作取舍,要做到这个,需要对于企业的业务和数据有全局而深入的理解。
本质上,自助取数是面向业务的,不是一个纯技术活,这也是自助取数很难产品化的原因。
有一点特别要提,理论上做一张大宽表是体验最好的,但由于维度的限制,这是不可能的,因此,数据建模师就很重要了,设计需要达到很高的性价比,为了符合取数的特点,甚至需要全新打造一套新的取数数据模型。
功能则需要调研,类似于设计产品,必须到一线中去了解需要哪些功能,怎么设计最好的配置方式,如何方便的找到相关模型、如何做好业务和数据的映射、如何方便的进行关联、如何方便的选择属性、如何方便的进行在线分析、如何方便的调度和监控、如何方便的导入导出数据、如何与现有的取数流程进行自动衔接、如何进行SQL解析、是否需要打造一个取数社区等等。
下图是一张系统架构的示例,供参考。
最后就是要做出高保真设计,让业务人员试用,一定要简单简单再简单。最好不要培训也会配,你可以设计成4步法或者5步法,步数越多,则会大幅增加工具的使用门槛,比如:
第一步,基本信息填写:填写取数的基本信息,包括业务目的、业务口径等信息。
第二步,选取合适的取数模型:可以通过标签及搜索的方式从取数模型库中选取合适的模型。
第三步,取数模型配置:对取数模型的配置主要包括三个方面,一是对模型输出结果的勾选,二是业务筛选条件的配置,三是外部数据的配置,允许导入外部数据,以及对取数结果进行特殊剔除等。
第四步,模型间组合(可选):选择两个以上的模型,可以通过拖拽的方式对模型进行自由组合。
第五步,取数任务执行:配置完数据的地域和时间范围之后即可提交取数。
取数任务执行
第四,运营是临门一脚,业务人员不是一张白纸。
取数作为企业的一项基础工作,传统取数的方式和流程已经成为套路,自助取数工具作为一种新的支撑手段,是对传统方式的挑战,即使产品再好,也需要做好内部的运营推广。
曾经将研发的自助取数叫作取数机器人,强调了其自动化的特性,宣传口号是“完全自助,永远在线,极简操控,知识共享”。
事实上,很多企业业务人员提出取数需求的代价并不高,取数也是企业的一项刚性成本投入,要改变流程和习惯并不容易,这就更考验产品的能力。
况且自助取数与一般的企业内生产系统不同,其并不是必需的,人工取数是它最大的竞争对手,需要接受业务人员的最挑剔眼光。
即使做过很多企业内部推广,还是有不少一线单位没有使用,究其原因,一是工具还没好到一定程度,二是缺乏持续的运营推广,三是企业人工取数成本太低,如果搞个虚拟结算估计会好很多,呵呵。
第五,不同企业效果可能不同,但成功还是可期。
当然,运营的效果还是要数据说话,说啥都是虚的,可以看到,后续自助的比例稳定在50%左右。不少企业能做到80%以上,也是令人非常羡慕的。
同时发现,一旦自助取数被投入实用,往往会大幅激发潜在取数需求,这对于公司是好事,说明原有的靠人工取数的方式已经抑制了大量的数据需求,信息技术的确是生产力,它让我们分析的成本、迭代的成本间接降低了。
自助取数的速度依赖于使用的技术引擎和取数复杂度,一般可以达到小时或半小时,这个已经远远低于传统的按天的人工取数周期了。
同时,自助取数的永远在线、口径的标准化、知识传承及很少出错也是其天然的优势。
第六,给用户足够的自主权。
自助取数最大的变数是业务,业务会带来数据模型的快速变化,因此需要最大可能的提供一线用户的模型自主权,因此,即使项目前期做了大量的数据调研,也务必能够让一线人员能够自行定制模型表,这也是一种开放化的思维。
实际上,自助取数演变到现在,一线专业人员自行开发配置的模型已经占到了60%以上。因此,我们需要做这个发动机,一旦自助取数工具能够启动,也许,星星之火,就能燎原了。
当然,自助取数工具还有大量的问题,需要去持续解决。
自助取数强调关联查询的实时分析能力,原来的自助取数工具,是基于IOE的,这个性能的瓶颈显然是很难解决的,包括在线、实时等计算分析能力,这给用户的体验造成了极大的困惑,对于自助取数,平均半个小时显然也太长了。
因此很羡慕BAT,其较传统企业,通过技术自主创新,还是能领先一步,诸如淘宝魔方这种所见即所得的取数方式,正是我们孜孜以求的,而这个靠购买产品的方式,显然很难。
当然,如果有厂家能解决前面我提到的问题,也许真的能打造出通用的PaaS取数平台也不一定,但相信肯定是一体化解决方案,而不是轻量级的一个工具。
由此想到了大数据,最近也在考虑MPP等数据库替代方案,比如GBASE、EXDATA啥的应该更好一点,但显然无法达到实时水平,也许IMPALA/SPARK等也可以尝试一下,无论如何,如果自助取数能移植到大数据平台上,还是能推动企业数据生产力的大幅提升。
要承认,当前自助取数工具对于清单级的取数也许支撑的还可以,但对于汇总分析类的取数支撑难度就上了一个量级,因为一旦分析表格太复杂,自助配置复杂度也将达到一个量级,这就失去了自助的意义。
也许,并不存在完美的自助取数,直接开放最终数据给业务人员,可能才是终极解决之道,再牛逼的工具或产品,在无边的数据形式面前,也需要妥协。
大数据时代,机会无处不在,自助取数还是要继续加油!
下一篇,会谈谈取数的基友报表,《如何才能做好一张报表》,感兴趣的朋友可以关注一下。
长按订阅二维码关注(微信号:ysjtx_fyp)