查看原文
其他

2019年,我的大数据白皮书

傅一平 与数据同行 2021-10-16

这是傅一平的第313篇原创



“与数据同行”开通了微信群,现已汇聚了3000位小伙伴了,长按以下二维码发送“入群”后加入


正文开始


2019年就要过去了,我不是个乐观主义者,这一年虽然做了些事情,但留下更多的是遗憾,希望在2020年去解决。

一、运气太好

在谈2019年具体做了什么事之前,要先谈谈我的背景,没有一定的背景,我说的和写的可能就是无稽之谈,如果大家希望能够从我的经历中学到点东西的话,一句话出去,在我这里也许是真理,在你那里就成了谬论。

首先,是时代的发展让自己遇见了大数据,恰好运营商在推进数字化转型,恰好运营商还拥有丰富的数据,恰好我又正好在做运营商做数据类的相关工作。

其次,在严峻的行业形势下,所在的公司保持了良好的业绩,在机制、流程、组织、人才、资金、平台等方面给大数据创造了良好的环境,大家都知道用数据驱动业务增长还有很长的路走,这是公司给予的信任。

最后,我这种智力一般,情商不高,仅有点执念(如果算优点的话,另一面其实就是一根筋)的人竟然有机会去从事大数据的创新探索工作,属于天上掉馅饼的事情,要感谢这个大数据时代

二、拥有执念

你的愿景决定了你的内驱力,而内驱力是你要主动做点事的最本质的东西,一个人有没有内驱力你去看看雷军的演讲就知道了,每次我看到他说出“干翻友商”这句话,就觉得很亲切。

当然我是达不到人家的境界的,做点有贡献感的事情就是我的愿景,这在我今年的文章《六年一轮回:大数据改变的,不仅仅是我的专业!中曾经提到过。

2019年自己传承了2018年想通的这个事情,同时获得了很多正反馈,这些正反馈产生了多巴胺:

(1)2019年从书本上认识了更多优秀的人,我觉得自己有可能在某些方面达到他们的水平,比如李叫兽在总结做事经验的时候就说:“为什么有的人总是让人感觉“充满动洞见”,“具有启发性”,而有的人却不能?这并不是因为他们接触了更多的信息或者偶然获得了绝密的书单,而是因为他们处理信息的方式,看书的方式与众不同......“,具体大家可以从《朋友圈的尖子生》P124-P129页寻找答案。

(2)2019年的一些工作从0走到了1,比如标签库的运营似乎找到了门道,实时数据中台拔地而起,数据产品有了一些新突破......,想着年初定的目标(或者说一直的顽疾)有了成功的可能还是非常高兴的,激励着自己继续去把这些事情做深做透。

现在想来失败是成功之母这句话还真是有问题,你的成功才是你继续成功之母,当初第一次听到万维钢讲这个道理还是觉得怪怪的,可能是自己以前做的太差了。

(3)2019年团队不少成员的表现让人刮目相看,不知道是什么原因造成的,也许是某个偶然的安排让合适的人做了合适的事,也许OKR、合弄制等机制的引入带来了人员的改变,也许是人多了有了氛围自然会有人冒出来,也许是对外变现的业务驱动。

无论如何,在更多的碰撞中我发现了大家更多的优点,某次规划交流会合作伙伴的领导就跟我讲,你们的某某台上演讲的很专业啊,你这边多几个这样的人就可以每天睡大觉了,这种感觉很好。

三、数据中台

今年我写文章的一个关键词是数据中台,无论是自己写得,还是转载别人的。我们的数据中台今年也迎来了重大的升级,即演进为实时数据中台,具体可以看看我的文章《为什么企业要从离线数据中台走向实时数据中台?

让我惊讶的是,实时数据中台是我们去年底定的目标,但今年发现大量的互联网公司开始发布实时数据中台的文章,比如《OPPO数据中台之基石:基于Flink SQL构建实数据仓库》,不知道是否为巧合。

笔者在《浙江移动数据中台的建设和应用实践》这篇文章曾经提到过,数据中台不是谁的创造,而且数据做到一定程度自然的结果,你看下图我们的演进历程,没有前面的铺垫,你很难一步到位实时中台。


数据中台不需要神话谁,也无所谓谁的中台更强,数据中台也没有标准架构,你适配好业务就可以了,建设的一个原则就是业务化、服务化和开放化。

数据中台未来的最大挑战是关于规模化场景的快速赋能水平,其次就是跟业务中台、技术中台、AI中台的协同。

但数据中台跟任何中台一样,始终面临着局部和全局、稳定和灵活、边界和职责等等数不清的问题,这个考验着管理的智慧。

四、数据建模

笔者在《什么才是运营商数据中台最大的竞争力?提到过位置和内容是运营商最需要匠心打造的两类数据,它们是我们未来变现的根本,数据团队一直在坚持对这两类数据进行持续的优化。

1、位置的提升

在数据层面,我们整合了信令、MR、话单、MDT等各类位置数据源,包括通过聚类获得质心、通过插值让数据变得更为连续等等,让定位精度和数据质量有了一个综合的提升,同时将OD、路网拟合等应用模型下层到数据仓库层,从而可以为各类应用赋能,这是数据中台思想的传承。

在技术层面,一方面是推动流处理引擎逐步替换为FLINK,另一方面则是进一步扩大了易鲸捷数据库在流数据实时统计上的应用。

在应用层面,无论是城市实验室产品的升级,还是接收的大量的个性化位置应用需求,都在驱动位置模型的不断优化,形成了一个良好的闭环,有了价值出口才有数据模型优化的机会,这个实在是太重要了。

2、内容的提升

行业知识库的价值很大,而对于运营的挑战也越来越大,一方面是数据源的不断增多,比如海量的线下事件,另一方面我们发现已经难以靠以前小作坊式的方式来做行业知识库了,不仅效率低而且更新速度慢。

这些都在让我们反思要建立体系化的行业知识库管理流程,正如笔者在《数据挖掘的军规》中提的那样:“好的做事的方法,靠人的口口相传是没有用的,写成书也是没人看的,只有把这些东西固化到企业的生产流程中去。

我们在考虑建立解析层、映射层再到应用层的三层管理体系,让数据研发组、行业体系组、数据变现组三组能充分的协同,让行业知识库的管理形成一个良性的闭环。

3、应用的模型

今年我们提了六个洞察去赋能公司智慧运营,下面是一页总结PPT,以客户为中心是我们追求的目标,少而精是要遵循的原则,差异化是你的立身之本,但我们与业务的协同还有很长的路要走,这是最无法控制的,也是最大的挑战,没有之一。


五、标签平台

标签库对下连接着数据模型,对上连接着营销平台,是我们客户管理的中心,笔者今年竟然写了三篇标签库的文章:《十年的标签库建设经历,我得到了什么启示?《为什么你的标签库没人用?》《如何有效推进百万标签库的治理?》来进行阐述,可见其重要性。

第一篇,第二篇其实在说标签库的定位,你首先得解决生存问题,让标签库成为企业营销流程中的一环,首先要活下来才能谈发展,在传统企业无论是引入多么先进的系统或平台,都首先要找到一个切入点,而这个切入点能够较好的适配原有的机制和流程。

第三篇则讲了标签普遍存在的只管杀不管埋的现象,并且给出了一个治理案例,这个治理现在已经做了一年,还没做完,获得的收获除了点击量的上升外,还有就是标签库人员在治理过程中认知的提升及相关制度的建立,这是最为可贵的。

在治理的过程中,我们也进行了大量的技术优化,无论是所见即所得的计算结果、毫秒级的查询速度、标签目录的优化、实时标签体系的融入、位置可视标签能力的增强、对外服务能力的提升等等。

标签平台现在最大的挑战除了运营,更多的体现在上游的数据模型是否给力,下游的营销平台出口流程是否顺畅等方面。

六、数据产品

笔者写过《运营商大数据对外价值变现的十大趋势》的文章,表明了当前关于运营商数据变现的基本看法,而数据产品是价值变现的最后一公里,今年我们的神灯产品体系还是有了长足的进步,四大产品体系更加完备,见下图,有了多个超千万的数据产品。


今年陆续发布了城市实验室、微洞察、失联触达、智慧精选等产品,城市实验室等产品在引来大量的商机的也引发了做数据产品的持续思考,包括:

1、你能想到的行业基本都是红海,或者门槛很高,或者还没开化,低垂的果实越来越少

2、你得舍得投入人员去理解这个行业,吃得越透,变现潜力就越大

3、在前面的基础上你才能有资格去说产品化、规模化或者生态化,否则,谈什么API赋能都是扯淡,都没人让你赋能

4、广告和金融是王道,绕不开的

考虑到大多数企业并没有实施对外变现,关于数据产品的方向,笔者特意写了一篇文章《超越BI,数据产品的前途在哪里?,建议按数据产品服务的对象去寻找机会,包括赋能管理者、赋能合作伙伴、赋能运营、赋能业务中台以及赋能外部变现等等。


其实做数据产品特别困难,无论是对内还是对外,它永远是对业务能力、数据能力、产品能力、运营能力的综合挑战,很庆幸,我们团队里有着充满激情的产品人员,每次看到他们忘我的工作,对自己都是巨大的鼓舞,虽然失败是大多数的,但你不尝试就没有机会。

七、运维管理

今年听到了很多的名词,SRE,AIOPS,然后我去学习了一下,发现SRE对于OLTP系统也许是新鲜事,但对于做数据的人来讲,其实10年前我们就曾经经历过另一种SRE。

数据的特点决定了数据开发和运维合在一起效率是很高的,因为在大多数情况下,数据运维最核心的问题其实是确保数据准确性和及时性,而不是前端功能可用性问题(比如报表系统都很稳定,而OLTP系统则完全不同,功能最有可能出故障),而确保数据准确性对于业务的要求其实挺高。

因此,对于非完全生产系统(比如业务上可以容忍某天的数据延迟)来讲,数据开发和维护的职责放在一起效率是很高的,谁最有可能快速核查清楚问题,当然是开发这个数据的人。

即使是现在,大数据的性能优化成为了非常核心的数据运维问题,运维独立也的确能带来很大的收益,但我一直对独立的数据运维团队有相关开发的要求。

无论是开发监控体系,还是脚本优化,我都是希望运维自己做,外包一只项目团队专门去做数据质量管理平台很多都是失败的,远不如运维自己做的小工具好用。

SRE其实是很基本的常识,Google善于把一个非常朴实的概念规范化,技术化。

现在数据变现逐步进入正轨,2019年运维团队也充实了队伍,我们终于可以实施数据领域的SRE,但当初我让运维团队抽出部分人员去做开发优化的时候,我还不知道SRE是个什么东西,后来发现本质都一样:就是降低各种成本提升运维效率。对于数据的SRE来讲,我完全可以新创一个名词,DRE(Data Reliability Engineer )。

今年在DRE上,我们运维团队做了四个独特的事情:

1、考虑到数据仓库的模型都是内部需求,而且较为稳定,与业务的耦合性也不高,但其性能又关系重大,因此将数据仓库开发职能移交到了运维团队。

2、对于耗时较长的Top代码进行了大量优化,比如针对网格模型,原来开发的代码执行一遍要20个小时,而现在优化后只需要3小时,发现DRE在优化上相对于开发团队有天然的优势,它们可以结合租户管理,程序调度,优先级管理等等各种要素权衡利弊给出更好的解决方案。

3、尝试引入图数据库替代传统的元数据管理系统,通过自主开发图数据库的应用已经能够灵活的实现各种问题的诊断,无论是表的重要性排序,无用表的自动剔除,表到应用的全生命周期监控等等,都让元数据管理从以前的可视化阶段演进到实战阶段。

关于图数据库的应用我写过一篇文章《图数据库:一种解决元数据管理“两张皮”的方法!,为啥维护人员基本不用原来的血缘分析功能,因为不是他做的,而且的确太难用了。

4、考虑到HIVE在很多场景的极低效率,运维团队开始主动对技术栈进行研究,给出了自己新的技术栈去优化存量代码,对于开发提出了优化建议,下图是个示例,由于上线的管理仍然在运维团队,因此让一只懂开发的运维团队去倒逼开发提升技术栈是合理的。


运维团队还做了大量职能范围内的事情,比如笔者写过一篇数据冗余治理的文章:《艰难的旅程:我们如何用“十步法”完成了一次企业级数据治理的落地?,就是由运维团队负责落地的。

AIOPS现在成了热点,但我们做大数据的竟然是后知后觉,每天绞尽脑汁想着用机器学习/人工智能的方法去对外赋能却忘了要对自己好一点,明年加油吧。

八、我的学习

学习有几个境界,读书自学向高手学实践中学教别人学,2019年自己有了更多体会。

1、读书自学2018年自己看《得到》超过了1000小时,也读了很多书,但看得多忘得快,2019年有了些许领悟,开始放慢节奏,一本好书会反复的读,对其中的道理会反复琢磨,当前我关于读书的最新认知是这样的:

读书是要分理解层次的,包括经验技巧、方法流程、科学原理和哲学视角,越往上通用性越强;读书是要举一反三的,比如作者是怎么做的,我能举出多少类似的例子,我以前有没有同样的经历,我未来能拿着这个道理做什么,非常烧脑,但我想只有这样才能让一个东西长在你脑子里,这个符合神经学原理。

2、向高手学我极力提倡做事要站在巨人的肩膀上,我最近有一篇文章《数据挖掘的军规》,虽然在谈管理和流程,其实最终的目的就是要确保做事的时候有更多的资源来帮到你做出正确的选择,因为你做的事情别人以前肯定做过。

可惜我在教别人这样做的时候,自己却做不到,也可以说懒吧,我并没有张开臂膀去向业界的大咖学习,2019年接触的人寥寥无几,我很少去参加论坛,也很少去参加聚会,周末忙着梳理思路和写文章,这让我的视野受到了极大的限制,这个也许叫做性格决定命运。

3、实践中学我最大的幸运是正好在一只创新型团队里面,正好所有的跟数据相关的工作都会涉及,能够接触到大量的具体案例并进行验证,能够真刀实枪的去践行一些理念,因此我说的道理,大多不是自己空想的,也不是抄袭人家的,而是结合自己的实践的真实体会。

如果没有了实践,估计我再也写不出什么文章了,遗憾的是我实践的面还是局限于数据领域,局限于运营商这个行业,这个限制了我的思维宽度。我可能永远也达不到拥有丰富阅历的人的境界,人生总会有所遗憾。

4、教别人学大家肯定有这个体会,读PPT是很容易的,但让你脱稿去演讲你就会很慌,怯场是一回事,但更关键的是,你并没有把要讲的东西融汇成自己的语言表达出来,它并没有牢固的长在你脑子里。

比如我的TD演讲稿,即使每一个字每一张图都是自己写的,但只要有些概念和图表还是引用别人的,我就得反复的琢磨这个东西的本质,直到弄通弄懂。

我写过几篇文章《最新发布的《数据资产管理实践白皮书4.0》,是学习数据管理的最好框架指引!读透《阿里巴巴数据中台实践》,其到底有什么高明之处?都提到过这个道理。2019年我连续第4年去大学授课,这也是倒逼着自己去备课和学习。

九、公号运营

回想自己刚进企业的情况,我觉得当时自己最需要的一些数据职业方向上的指引,做正确的事比正确的做事重要的多,因为大多企业的技术天花板不是很高,互联网公司也不是中国数据领域的基本面,大多传统企业的数据从业者应该跟我一样,在1-2年后就会碰到方向性的问题。

但当你知道的时候,可能已经晚了。

而现在要找到较为通俗的关于数据工作指引性的文章不多,要么太技术,要么太鸡汤,我希望自己公众号文章的定位正好处在中间,能给你一些数据技术和管理上的启示。

因此,2019年我依然以每周一篇的原创来连接更多的人,没有拉下一周,大家的每次阅读都是对我最大的褒奖。

2019年自己公众号做了些营销引流的事情,比如公众号的互推,主要有以下原因:

一是自媒体的朋友告诉我公众号要影响到更多的人就要采用一些引流的方法,特别是今年开了与数据同行微信群后(已经超3500人了),因此我需要与时俱进。

二是它山之石可以攻玉,自己不能一直唱独角戏,我希望为大家精选出天下最好的文章,但发现如果自己的号不够强大的话甚至没有删选的权利,因此需要去做引流和营销,遵循自媒体生存的法则。

要说得还有很多,鉴于篇幅就打住了,2019年马上要过去了,祝大家2020年继续进步,与数据同行会一直与你相伴!


作者:傅一平 (微信号:fuyipingmnb)

“与数据同行”开通了微信群和QQ群,现已汇聚了3000位小伙伴了,长按以下二维码加入。


笔者也开通了知识星球,欢迎到我的知识星球进行探讨。

近期文章列表

数据挖掘的军规

好好学习,好好思考(2019年第一期)

浙江移动数据中台的建设和应用实践

工作六年,我总结了一份数据产品建设指南

五级数据挖掘工程师,你处在哪一级?

不做中台会死吗?

BI(商业智能)的未来?

数据分析的道与术

OPPO数据中台之基石:基于Flink SQL构建实数据仓库

超越BI,数据产品的前途在哪里?

数据中台已成下一风口,它会颠覆数据工程师的工作吗?

数据产品经理,并不是数据 + 产品经理

数据中台不是技术平台,没有标准架构!

如何有效推进百万标签库的治理?

运营商大数据对外价值变现的十大趋势

如何深入浅出的理解数据仓库建模?

艰难的旅程:我们如何用“十步法”完成了一次企业级数据治理的落地?

五年数字大屏之路,“述说”着我们大数据变现怎样的故事?(附演示视频)

人工智能现在的技术“好玩”到了什么程度?

超越平台,数据中台的业务化、服务化及开放化!


要看更多,请点击左下角阅读原文即可阅读整理好的所有文章!




: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存