一只传统企业大数据平台团队的绽放!
点击上方
请您点击“与数据同行”以“关注”,关于数据的实践与思考,每周一我在这里等你!
作者:傅一平 目前就职于某电信运营商,从事大数据相关工作。
起这么献媚的题目,难免会有PMP之嫌,但互联网时代了,也没必要避讳,讲究的还是实事求是。
记得有位前领导说过,IT就是让人忘记它的存在,如果做到这一点,就算成功了。相对互联网公司的技术团队,传统企业还是比较内敛的,这个可能受企业文化影响,但内敛不表示保守。
作为直接旁观者,亲眼见证了一个传统企业大数据平台的蹒跚起步,从无到有,从问题不断到日渐完善,团队也在不断壮大,姑且就叫它A公司的大数据平台技术团队。
马云说过,只要用钱能解决的问题都不是问题,但这句话,在大多数传统企业并不适用,我们并没有很多钱,或者说不能用很多的钱,比如不可能突破机制限制用百万年薪去请到现成的顶级技术专家,往往需要在没有很多钱的情况下解决问题。
传统企业在大数据人才的争取上也非常困难,这是无法回避的现实,互联网公司当下对于人才的搜刮,叫作秋风扫落叶。
传统企业大数据技术团队挑战很大,特别是想要能力自主掌控的。这里就从一个旁观者的角度来谈谈A公司的大数据技术团队,也许可以看到不一样的东西。
A公司的大数据平台规划非常艰难。
诸如BAT,大数据平台是摸爬滚打过来的,经历了大量的实际验证才走到今天这一步,投入的研发力量难以计数。
大数据平台对于传统企业,却是一声惊雷,几乎没有任何储备,就要迎接技术的冲击,这也是很多企业一时不知所措的原因。虽然有合作伙伴的相关产品,但现在有哪家公司的大数据产品可以说是成熟的呢,稳定性及高可用程度能够达到以前小型机的高度?
但各家公司的大数据平台方案还是纷至沓来,BAT又朱玉在前,在乱花渐欲迷人眼中,需要有大师出现,能根据自己企业的特点制定出适合的大数据方案,兼顾商业和开源的益处,同时也要考虑新技术的不确定性。
但A是有底蕴的。
在BAT的技术一日千里的时候,A公司的大师也没有闲着,虽然没有很多人,但对于大数据的技术演进方向研究很深,这得益于这个开放的时代,但如果只叫不学习,就只能剩下抱怨和被新技术淘汰了。
在此之前,A公司的大师,已经对大量的技术进行了测试,这为平台方案的制定奠定了坚实的基础,当然,也有很多误判,走了不少弯路,但当前采用的方案,基本是能想到的最好的妥协的方案了,后面的事实证明了这一切。
何谓最好,就是它在可见的几年内,能真正顶上去了,能够用起来了,能够把得住,技术无止境,够用就好,这是务实的原则。
A公司的团队用了一年时间,完成了下面所有系统的建设,并纳入生产,速度很快,成为推动大数据商业变现的利器。
Hadoop:
A团队做了很多创新,年底集群将接近1000台,数据量超过10PB,虽难以比肩BAT,但在传统企业里,也算是很大的单集群了。
提出了ETL和基础数据处理集群物理统一,逻辑分散的原则,解决了采集文集少落一次地的问题,这个对于做ETL的人来,价值很大。
提供了租户资源隔离能力,即所见即所得,为A公司对外变现商户入驻等商业模式的成功奠定了坚实的基础,当前,开出的租户超过100个,支撑了公司对外商业变现零的突破。
让公司内部每个地市和团队都拥有了独立使用大数据平台的能力,开始从传统的小型机的数据集市过渡到hadoop,奠定了全民使用大数据的基础,这在以前很难想象。
事实上,只要一线无法接触大数据平台的数据,无法直接在这个平台上建模,就不能说这个企业有了运营大数据的能力,如果仅仅是捣鼓几张表到传统的数据集市,那也是没有多大价值的事情。
MPP:
从DB2过渡到EXDATA、ASTER、GBASE,也许大家觉得奇怪为什么选择这么多型号,这也是A团队实践的结果,传统企业需要在有限的条件下,选择合适的组件来满足各种场景的业务需求。
现在A公司GBASE为核心的数据仓库完整替代传统DB2,性能提升数倍,解决了老大难问题,要知道,A公司是传统企业,上有考核,下有业务,稳定性是无法规避的最大的问题。DB2从2003年开始建设,到现在历经10多年,从PXXX到现在的P780,要替换它非常不易。
也务实的选择了EXDATA作为报表的服务器,对于多并发的小型OLAP任务,显然,EXDATA是最佳人选,为什么是这样,实践得出的结果。
TD的ASTER虽说测试不顺利,但其自带核心算法的能力,也让其占有一席之地,A公司的N度交往圈模型,是完全依赖其函数完成的。
A公司的数据仓库层面彻底淘汰了小型机,算是旅程碑的事件,要为团队点赞,也为国产数据库喝彩。
A公司的方案不能说最好,但这是实践的结果,也经受住了生产的考验。
流处理:
A公司的流处理的选型经历了大量的论证和测试,最终A大师当机立断,选择了商用的IBM SREAM,淘汰了Storm,当前每天承担着近千亿的记录处理量。这套流处理为实时营销、反欺诈等实时应用场景奠定了坚实的基础,比如基于该引擎的自主研发的照妖镜实时欺诈干预系统每月挽回的客户损失就超过百万。
还有数不清的产品在用和要用这套平台,公司的标签体系也将逐步由静态向实时转变以适应公司转型,但没有这个平台,什么都不可能发生。
内存数据库:
实时营销涉及复杂的SQL在线计算,需要选用合适的分布式SQL内存数据库,A公司的大师们到处找开源的产品,然后进行测试,最终还是找到了,当前,实时营销每天要处理的记录超过几十亿条。
还有,为了支撑实时查询,引入了HBASE和Redis,为了满足在线分析,引入了IMPALA,为了并行挖掘,搭建起了可用的SPARK环境,为了资源高效利用,打造了数据中心操作系统DCOS,还有……。
每一个组件虽然很光鲜,但真要用起来,问题还是很多,毕竟实验和生产是两个境界的事情。
平台运维:
建立起平台对于大数据技术团队只是个开始,更艰难的是日常的运维,面对如此多而新的复杂的技术组件,统计了下,某月光是Kafka的一个组件出现的问题就超过10次,但技术团队还是趟过去了,熬夜虽变成是常态,但技术团队却是越加成熟,也感谢携手的合作伙伴团队的努力。
虽然是以A公司为例,但可以看到,传统企业要搞大数据面临的技术环境非常复杂,技术之路走起来非常艰难。
开放协作:
在乱花渐欲迷人眼的技术丛林中,A公司也团聚了合作伙伴,但相比互联网公司动辄上百成千的研发团队,A公司的技术人员数量,也许连零头都没有.....。
完全的自研对于传统企业不现实,不可能什么都从头搞起,需要借道合作伙伴,共同成长,能抓到老鼠的就是好猫,况且这是个开放的世界,相互协作,产业才能真正繁荣,寡头出现并不是好事。何谓好呢,只要满足了自身的业务要求的技术就是好的技术。
事实上,传统公司搞大数据技术,相对BAT巨鳄,亦或比对新的互联网公司,面临的新挑战也前所未有:
在面对开源技术的不确定性上,需要承担以往小型机时代高可用性带来的巨大压力,要以更加创新的精神去更新自己的存量技术体系;
在人才的储备和引进上,面临互联网公司的激烈人才竞争,要面对薪酬被吊打的节奏,培养和留住人才成为巨大的课题。
在突破创新和保障稳定上,需要在机制的夹缝中生存,做好两者的平衡,很多传统企业的业务容错性要求要比互联网企业更苛刻,这个的确压缩了技术创新的空间。
在技术上下沟通上,要在缺乏足够的商业模式下,以技术领先业务半步的视角,说服管理者做这个有前途但短期可能缺乏规模效益的事情,何其艰难。
虽然大数据平台只是个基础,最终的变现还是需要靠建模和运营,但大家都知道这个是中流砥柱。
因此,为中国移动浙江公司大数据平台的技术团队点赞,一只致力于技术创新的队伍。
花絮:
为什么叫A公司的技术人员为大师,我的理解来自玩的一个剑侠情缘三游戏,因为里面有个职业叫少林,秃头难看且操控要求很高,因此玩的人凤毛麟角,但总有高人愿意去玩这个职业,出道后,大家都尊称他们为大师,因为各个武艺非凡。因此,笔者喜欢称技术能力超群的人为大师。
要了解浙江移动大数据平台更多相关技术文章,请关注浙江移动信息技术部官方微信公众号“三墩IT人”,那里有一群大师。
不忘初心,大数据不是IT的狂欢! 阅读量:2160
我如何完成一本企业数据字典的编写! 阅读量:2580
BI自助取数是怎么炼成的? 阅读量:1835
为什么BI取数这么难?阅读量:11500
为什么数据管理工作很难成功?阅读量:1900
为什么传统BI没前途?阅读量:4093
大数据,为什么不是传统BI的简单升级?阅读量:3400
数据分析师的自我修养 阅读量:1483
唯有数据创新,运营商才能实现大数据变现的突破?阅读量:1236
中国移动进军大数据征信,一个具有旅程碑意义的事件 阅读量:2380
为什么有些人用3年的时间获得了你12年的数据分析经验?阅读量:1874
数学中的“罗辑思维” 阅读量:1090
数据说谎的艺术 阅读量:2234
看上去很美,谈谈阿里云的大数据平台【数加】 阅读量:1281
DPI大数据之战:运营商的艰难抉择 阅读量:2342
还有很多...
长按订阅二维码关注(微信号:ysjtx_fyp)