收录于话题
#数据挖掘的真谛
19个内容
这是傅一平的第301篇原创
作者:傅一平
个人微信:fuyipingmnb
注:为了方便大家阅读,最近对于所有的历史文章做了分门别类,你在我每篇文章的末尾下拉就可以看到全部文章的链接了。2019年云栖大会上,阿里巴巴董事局主席张勇做了《数字经济时代,大数据是石油,算力是引擎》的演讲,全文充斥着数字化转型的关键词,其提到,数字化转型对于大多数企业来说,意味着所有的东西都将被数字化,都会因为有了数字化而产生进一步走向智慧化、智能化的空间和驱动力。大数据,人工智能,云计算,也就是张勇说得“数”和“智”的全面结合。阿里高达50%以上的技术人员比例说明了一切,这些东西不是靠嘴皮子说出来的,也不是靠管出来的,而是靠人一点点码出来的,要的是真功夫,硬功夫。科斯说,是交易成本与管理成本的对比,确定了企业的边界,交易成本越低的事情,越应该外部化,管理成本越低的事情,越应该内部化。而数字化创新这种东西,大多是摸着石头过河,交易成本无限大,迭代是其主要特征,因此只能自己做。回到很多企业,IT外包则是理性的选择,因为大多有最佳实践可以复制,比如阿里做出来了,你去COPY就可以了,与其养一只庞大的IT团队自研,背负巨大的成本,还不如轻装上阵,直接从外面采购。笔者在《大数据建模的自主和外包,边界到底在哪里?》这篇文章里曾经提到过,大数据这种创新业务,具有明显的行业特点,谁最懂这个行业的数据和业务,谁就是权威,就最有可能做出符合要求的东西,而最懂业务和数据的人,当然是这个行业内部的人。很多企业存在着人员编制限制、历史包袱太重等诸多问题,对于自研心存疑虑,但根据笔者近几年的实践,其实很多数据类工作的自研性价比是非常高的,比如建模,虽然没法量化,但我可以做个定性比较,见下表,时间越长,优势就越明显。当然,建模核心能力自我掌控不仅仅是简单的技术问题,更是组织、机制、流程的问题。人员多了,管理跟不上是非常可怕的事情,你现在让我带几十号人也许还可以,但如果带几百人,就有点吃不消了,很大程度上讲,技术管理人才的匮乏也是很多企业的痛,将不行,兵多也没用。我们从2015年开始提出建模核心能力自我掌控的要求,现在已经是第5个年头了,作为见证人和参与者,不能说我们的建模能力有多强,甚至大多时候我是很自卑的,因为总忍不住跟最好的比,但庆幸的是公司给了机会,让我们找到了一个起点,做正确的事很重要。今天就来谈一谈建模核心能力自我掌控后的一些收获,包括基础模型、融合模型、挖掘模型、基础算法、技术网络等五个方面,希望于你有启示。5年前我们对于企业的数据资产进行了全面的梳理,制定了采集的规范,每个数据责任到人,并要求数据采集全部自己完成,这使得团队对于企业的核心数据理解是比较深刻的,这是做大数据的基础。每当引入新的数据、提升数据的质量、分享新数据的价值或者接洽外部客户,我们都不再需要合作伙伴的参与,这使得沟通成本比较低。现在外部客户问有什么数据,是否有数据字典,每个字段如何解释,都是很简单的事情,换做以前,合作伙伴就可能以数据设计泄露为由拒绝提供数据字典。现在大家都在提开放,但其实有时候你想开放都开放不了,或者在执行过程中困难重重,因为沟通成本太高了,这个也不能怪合作伙伴,而是机制造成的,你确立什么样的规则,就要面对什么样的问题。笔者以前也说过,运营商最核心的数据就是位置和内容,自己在运营商一线做数据多年,知道优化这个数据对于公司的价值,但你说要去推动公司为了一个尚无法确定预期效果的东西马上立项,挑战还是很大的,前面有一堆的机制,流程等着你。没钱意味着没有合作伙伴,只能自己搞,我们起初投入的研发人员只有一人,为了不受杂事的影响还专门去做了双创,一做就是2年多,现在还在迭代优化,而50*50的栅格精准定位能力成了当前位置应用的中流砥柱。我们针对上网内容数据的研究时间更长,由此衍生出行业知识库、爬虫平台、天眼、微洞察产品等大量的系统和产品,虽然这些东西的价值还没有完全呈现,但我们对其充满了期待,其一定是运营商未来内外大数价值变现的一个核心抓手。融合模型的质量往往决定了上层应用的数据生成速度,以前融合模型一旦定型,在日常运营中就很少进行新增和改动,因为一动就牵一发而动全身,合作伙伴其实也不愿意去动,宁可另起支线,一方面是实施比较困难,另一方面性价比不高,比如你梳理评估了老半天,最后就改了几个地方,那到底谁来证明你为其付出的代价。这种问题有时特别扯是因为双方的技术能力差异、追求的目标不一致造成的,交易成本其实很高,合作伙伴有时要求专题立项,但这个项你立得起来吗?融合模型自我掌控的很大好处是团队能够立足长远去做一些事情,而不总是急功近利,外包者和责任人的心态也是完全不一样的。比如发现网格融合模型跑得很慢,负责该模型的同事肯定是要绞尽脑汁去做优化提升的,我们大量融合模型的优化都是负责人自己提出来自己去解决,我也特别鼓励团队成员干这个事情。基于这种要求,我们对于运营商O域上网日志、信令数据的处理做了大量的优化,现在对外提供的效率还算可以。2015年的时候大数据平台的融合模型只有300个,而现在已经有700多个了,类比2004-2005年做的数据仓库融合模型,当时是200个左右,而到2008年推倒重来之前仍然只有200个,这意味着什么?意味着没有进步,数据仓库推倒重来你现在看起来不可思议,但换作以前是很正常的,因为合作伙伴需要项目,我们需要性能,毕竟底子烂透了。针对挖掘模型,我们一直提倡借助各方合作伙伴力量百花齐放,但后来出了问题,发现很多核心模型做了一遍又一遍,比如流量挖潜,每次号称是优化,其实都在重做,合作伙伴的人员也换马灯似的那么勤。有一个事让我感触很深,有个合作伙伴离职了,其负责的某个模型没人能理解,也没人能改,甚至连代码都丢光了。这个事件除了让我们重视文档和代码的管理外,我们也把核心能力自我掌控的内涵扩大了,即公司核心业务的模型,个人的属性标签也要求自我掌控。对于运营商来讲,就是四轮驱动的业务模型,比如流量模型,家庭模型,政企模型等等,这些业务是运营商的立身之本,是收入的主力,我们要把这些业务模型抓在自己手里,持续的去运营和迭代。遗憾的是,这几个模型的优化还没到位,推广也有问题,比如宽带模型在整个营销的使用占比大概在20-30%左右。针对这些问题,我们正在推进三个有意义的事情,相信后面会越做越好。二是重新进行全渠道数据的归集,解决效果数据的质量问题。很多BI团队做数据挖掘有个毛病,就是只管成功率不管规模,但点的突破并不代表你的模型对于公司有多大的价值,大数据建模团队的基本面,在于你建立的模型在生产中所占的比例,其他都是扯淡了。个人的职业、收入水平、出行方式、家庭关系、居住地、工作地等硬标签都属于个人属性标签的范畴,这些标签具有长期的、稳定的特点,反应了用户的基本特征,价值非常大,比如在对外变现中使用的比例超过80%,但一直缺乏持续的优化,客户总是会问这些标签的覆盖率,准确率是多少,也备受诟病。现在这些标签都纳入了自我管理的范畴,居住地、工作地是提升是最快的,而家庭关系、个人职业、出行方式、收入水平也在持续优化中。我们不可能像大厂那样啥技术都去自我掌控,运营商需要结合自己的数据特点去掌握所需的算法,第一类是基于位置类的算法,无论是精准定位、路网拟合、时空轨迹、交通出行、客流预测、时间序列、时空插值、OD等等,都是非常需要的。第二类是NLP,即自然语言处理,因为我们有太多的上网数据,而上网数据+爬虫数据的组合可以产生无穷的想象力,但要从这些原始数据获得信息或知识,必须靠NLP。NLP的能力直接决定了运营商能从上网数据中获得多少红利,投入再多也不为过。比如通过解析微信公众号文章,我们对于用户偏好的洞察就可能上一个台阶,比如通过对地图POI的解析,我们就可以有效提升自身地址库的质量。这些算法的业务价值很高,很多传统的合作伙伴也不擅长,为了快速推进,我们得自己搞,研发的难度有点大,但却是有利于运营商培养自己的技术人才,这个其实非常好。现在很热的视频、图像、语音等算法都可能纳入到自我掌控的范畴,但这取决于有没有合适的业务场景。对于很多企业来讲,大数据运营的初始,业务和数据更为重要,甚至不需要什么算法能力,大量的模型采用业务规则就可以搞定,而且效果还不错。但随着大数据运营的深入,低垂的果实被摘完了,你会突然发现没有了后劲,无论是线上还是线下,我们都面临数据能力进一步提升的挑战,而这些光靠业务建模师就显得力不从心了,比如精准定位,内容分类等等,因为其所需要的算法都太专业了,远不是直接调用个逻辑回归、决策树就可以解决的。另一方面,人员的流失也开始显现,离职的人员大多提到了发展瓶颈的问题,业务建模对于人员技术能力的提升还是有限的,3年之痒体现在很多员工身上,也并不是每一个人都喜欢做业务建模师或者数据分析师的,他们有自己的技术追求,希望更多的用技术驱动业务,他们更需要一个技术网络。因此我们设立了技术研发组,希望围绕业务难点去做算法的攻坚,让技术研发组成为业务建模师的后盾。其实很早以前笔者就有成立技术组的想法,但一直没有做,因为感觉时候未到,你不能为了技术而技术,即使勉强设置了岗位,但如果没有合适的课题,也没人能教,就变得形同虚设了。很多年前我留不住离职的成员,我也认怂,因为的确没有这个能力去创造这种环境,组织架构要随着业务发展自然演化,现在我们终于有了机会去建立自己的研发团队。现在无论是NLP、内容推荐、爬虫引擎、深度学习都开始由技术研发组提供支持(技术平台我们有自己的云计算中心提供支撑),技术研发组也同时承担着技术培训、技术研讨和创新等工作。说完了五点,你也许还有疑问,难道你们不再需要合作伙伴了吗?当然不是,正如前面我所说的,有些工作,适合自己做,有些工作,则可以托付给合作伙伴,从长远的角度来讲,合适的分工有利于我们和合作伙伴各自发挥所长,一起把蛋糕做大。我们专注于把基础模型和融合模型做好,努力提升位置和内容数据的质量,意味着我们数据中台的对外服务能力会越来越强,合作伙伴则可以基于这些能力去创造更好的数据产品和应用模型。也正是有了合作伙伴的支持,我们才能在较短的时间内推出神灯的大数据产品体系,合作伙伴也因此变得更为强大,现在的问题不是分工的问题,我们的进步甚至推进了合作伙伴的转型,现在的问题往往是资源和能力的问题。10年前我在与装修师傅签订合同的时候以为占了便宜,但然并卵,几年后风一吹门嘎嘎响搞得睡眠总受到影响就知道我在为此付出代价。在数据技术上,我希望跟合作伙伴是平的,我不想克扣你,你也不要欺负我。而建模核心能力自我掌控后,我们拥有了互相尊重的基础,我知道你知道我知道什么,最终我们的目的是为了更好的促进业务的发展,从来不是为了掌控而掌控。也许你还要问,我们自己没有足够的人员,只能让合作伙伴做,怎么开始?一、明确自己人员的工作性质,做管理的,做建模的要区分清楚,比如建模的只能自己写代码,可以与合作伙伴讨论,但不能指挥合作伙伴,从开发的角度讲,不存在甲方,资源再少,也要有做事的原则。二、局方要为自己的建模结果负责,没有合作伙伴为你背书,合作伙伴也一样,不要一出问题就找人背锅,现在大家都要把精力花在自己的问题上。三、凡是违背以上原则的,一事一议,毕竟很多建模涉及的工作量有点大,需要合作伙伴的支持,但一般有个前提,自己会做的部分才能交出去,这也是核心能力自我掌控的要求。当然,如果企业并没意识到数据的重要性,在人才引入上一毛不拔,或者就想着空手套白狼,或者觉得合作伙伴可以搞定一切,或者在与合作伙伴的合作中边界不分,那我说得核心能力自我掌控就全是扯谈了。如果你觉得这篇文章有用,欢迎推荐和转发朋友圈,如果你有独到的见解和意见,欢迎到我的知识星球进行探讨。
我的历史文章(点击链接即可阅读)
一、数据中台
超越平台,数据中台的业务化、服务化及开放化!
读透《阿里巴巴数据中台实践》,其到底有什么高明之处?
什么才是运营商数据中台最大的竞争力?
为什么企业要从离线数据中台走向实时数据中台?
艰难的旅程,你的数据中台到底能为一线提供多少火力?
如何清晰的实施“大中台,小前台” 大数据运营策略?
数据中台到底是什么?
企业的数据中台的价值
艰难的抉择,阿里“小前台、大中台”的解读
二、个人成长
六年一轮回:大数据改变的,不仅仅是我的专业!
数据管理者的自我修养:日报的价值
《被讨厌的勇气》:关于选择、烦恼和幸福
不仅仅是技术,大数据更需要往前一步的勇气!
传统的数据从业者,并不会从大数据中获得多少红利
一个数据管理者的自我修养(一):从KPI、OKR到信息赋能
PPT,考验你的格局、能力和思维的方式,你得学会驾驭它!
如何才能拥有自己的数据技术工匠?
立功思维,创造大数据团队的尤里卡时刻!
2018年,关于运营商大数据管理的八个思考和实践!
罗振宇2018跨年演讲,我的一年800小时《得到》学习启示,你应该听谁的?
做大数据的越看不清楚形势,就越要做好年度思考和计划!
追求数据团队的多样性,就好比大数据的多维度那么重要!
为什么开放、透明的环境对于大数据团队是如此重要?
如何才能有效的进行大数据创新?
数据建模师的起跑线,从踏上工作岗位那一刻开始
企业如何打造数据人才成长的环境?
跨界吧,新形式下大数据支撑者的重新定位
一种创新型的大数据管理组织
谈谈我的《深入浅出大数据系列讲义课程》
大数据运维的思考
用数据说话:一份不算总结的半年度总结
如何准备一次企业内的大数据普及培训?
传统企业要培养自己的大数据人才
你有多少数据竞争力?
经分伙伴,我们如何携手度过下一个十年?
这五个灵魂问题,解决BI新人80%的困惑
我们需要什么样的大数据培训?
重装上阵-大数据管理的实践和思考
大数据需要什么样的合作伙伴?
我们缺什么,一次大数据头脑风暴的启示!
数据从业者与PPT的进阶
为什么有些人用3年的时间获得了 你12年的数据分析经验
走自己的路,谈运营商数据人的坚持
三、数据挖掘
联邦学习,带我们走出“数据孤岛”的困境?
从SQLFLOW开源说起,谈谈如何全面提升数据挖掘的效率?
从芝麻信用分透露的详细数据设计,我们能从中得到什么启示?
数据分析师的算法推荐是否会陷入“真实的谎言”?
从贝叶斯出发,如何真正的理解算法?
个人信用分是如何计算出来的?
一克统计学:小数定律和随机事件
一克统计学:人人都能懂的贝叶斯定理
为什么数据挖掘很难成功?
数据挖掘师,要从一个人活成一支队伍
关于提升机器学习能力的方法 | 从周志华《机器学习》到李航的《统计学习方法》
四、人工智能
我从《阿里云:人工智能应用实践与趋势》白皮书学到了什么?
冷静看待人工智能,企业如何从人工智能产业中受益?
如何清晰的理解从神经网络到人工智能这个概念?
从李开复的人工智能的万字长文中能学到什么?
理解深度学习的钥匙–参数篇
理解深度学习的钥匙 –启蒙篇
我如何理解深度学习?
五、数据平台
拥有敏捷数据交付平台(DataMaster)是怎样一种体验?
痛苦与变革,如何避免大数据PaaS平台建设中的这些“坑”?
中国电信的“天翼大数据飞龙平台”长啥样?
如何打造敏捷的数据挖掘能力?
论道数据仓库维度建模和关系建模
解读云栖大会的《阿里巴巴数据服务产品开发及大数据体系》
阿里云机器学习平台的思考
一个传统企业大数据发展的编年史
一个业务化的大数据PaaS平台启示录
为什么选择这样的大数据平台架构?
我们需要什么样的ETL?
重新认识数据可视化
一只传统企业大数据平台团队的绽放!
看上去很美, 谈谈阿里云的大数据平台「数加」
浙江移动大数据平台践行之路(上)
浙江移动大数据平台践行之路(下)
六、数据产品
为什么你的标签库没人用?
降维打击:流量造假者,我知道你昨天干了什么?
十年的标签库建设经历,我得到了什么启示?
为什么微信公众号的用户分析功能这么弱?
浙江移动神灯大数据重磅推出城市规划产品:城市实验室!
从交通行业说起,运营商大数据如何有策略的切入一个垂直行业?
运营商大数据在智慧交通方面能有什么作为?
为什么就做不好数据产品的体验?
百万标签发布了,这是怎样一种体验?
我们是如何来设计互联网大会上“城市24小时”这块数字大屏的?
直击传统商业五大痛点,如何打造一个爆款的商圈洞察产品?
照亮自己,点亮他人,详解浙江移动“神灯”大数据!
连续发布十款大数据产品:浙江移动赋能金融行业
运营商大数据产品变现面临的挑战和机遇
中国移动信用分悄然登场了!
一座城、一块屏、用大数据讲述城市的故事
为什么数据从业者要学点产品思维?
七、数据变现
浙江移动“神灯大数据”官方微信公众号正式发布,欢迎关注!
大数据规模化变现,也许我们需要一只地推铁军?
从资源到能力,重谈运营商大数据变现的核心竞争力
为什么运营商大数据变现要搞“行业知识图谱”?
大数据洞察类产品如何才能规模变现?
为变现赋能 | 运营商大数据建模的五个方向
如何走出大数据洞察报告变现的困境
为什么没人愿意为大数据洞察报告买单?
沙龙回顾 | 运营商要变现必须从建模中发现数据的价值!
1小时解读运营商大数据的变现模式,你感兴趣吗?
终端企业需要什么样的第三方分析报告?
论运营商当下的大数据变现服务模式
关于在中国统计网峰会 《运营商大数据价值变现的实践和思考》演讲的解读
唯有数据创新,运营商才能实现大数据变现的突破
互联网广告:大数据变现的颜值担当
八、数据分析
一次客户细分的实践
经验,套路还是逻辑?从我的一次数据分析经历中能得到什么?
为什么我提交的数据分析报告总是被领导K?
大数据也是个江湖:关于腾讯大数据“购买iPhone人群普遍无房无车学历低”的一地鸡毛
浙江移动发布手机终端大数据分析报告
为什么客户画像这么难?
数据分析师的自我修养
经营分析师如何进一步提升自己的境界
九、报表取数
如何避免成为一台取数机器?
刻意练习,如何成为一名取数大师
BI取数者的职业发展之路?
BI的囚徒困境
十幅图读懂BI自助取数系统!
BI一线管理者的二次创业
报表系统的雄心
如何才能做好一张报表?
BI自助取数是怎么炼成的?
为什么BI取数这么难?
为什么传统BI没前途?
大数据,为什么不是传统BI的简单升级?
涅槃?高效报表开发人员的五件武器
十、资产管理
图数据库:一种解决元数据管理“两张皮”的方法!
最新发布的《数据资产管理实践白皮书4.0》,是学习数据管理的最好框架指引!
数据的价值到底如何评估?
业务系统的数据资产管理为什么这么难?
深度 | 从变现的角度重新认识运营商大数据的价值
数据的价值到底如何衡量?
从DAMA出发,一个指标库到底是如何炼成的?
一本数据字典的三生三世
博弈?运营商,HTTPS,大数据
思考|谈谈数据管理的原则
我如何完成一本企业数据字典的编写?
为什么数据管理工作很难成功?
DPI大数据之战,运营商的艰难抉择
深度 | PK BAT,运营商大数据其实更有价值
六把武器?谈谈DT时代的大数据资产管理(下)
六把武器?谈谈DT时代的大数据资产管理(上)
十一、数据运营
运营商大数据运营的现状及思考
业务人员的革命:从大数据运营是一台“戏”开始
传统企业的模型最佳实践为什么很难复制推广?
一个大数据应用是如何炼成的?
不忘初心,大数据不是IT的狂欢!
传统企业大数据对内运营变现如何破局?
决战大数据的对内运营
天龙八步:传统企业大数据运营的一些思考
普及、开放与平台:大数据价值运营之路(上)
普及、开放与平台:大数据价值运营之路(中)
普及、开放与平台:大数据价值运营之路(下)
十二、数据安全
风声鹤唳的大数据圈,又有多少理解了数据安全的底线?
迄今为止最深入浅出的关于个人网络数据权利的解读,从淘宝胜诉全国首例大数据产品不正当竞争纠纷案说起!
滴滴出行,能否引入大数据风控技术保障乘客安全?
谁用得好就归谁?谈谈大数据的所有权
电信运营商的反欺诈系统不会侵犯用户隐私!
十三、数据思维
从吴军的“算法的油水就那么多”说起!
《长安十二时辰》的大案牍术可不是什么“穿越版”的大数据!
从黑天鹅、遍历性再到尾部风险:塔勒布关于随机性的洞见!
我该如何从互联网“夺回”自己数据的所有权?
从计划到市场,精准营销也许到了该改变的时候了!
有了大数据这个工具,“社会科学”也许可以变得更让人信服!
哪些广为人知的数据挖掘案例其实是一地鸡毛?
如何进一步理解精准营销的内涵?
我如何用统计学指导自己的生活?
谈谈大数据时代的《别被算法困在“信息茧房”》
从大数据变现出发,如何清晰的理解新零售?
大数据建模的自主和外包,边界到底在哪里?
数据建模者,对算法要“知其所以然”
大数据变现给了数据建模者自证价值的最好机会
从吴恩达的“AI的壁垒非算法而是数据”说起!
部门有界,数据无界,大数据需要大胸怀
大数据,悟道2016
联通的大数据反欺诈,依赖互联网公司靠谱吗?
“9·11”15年:致癌人数已超5400人,这个新闻靠谱吗?
宝洁,没必要去亵渎精准营销!
黑客帝国的前奏:工业大数据的崛起
大数据时代,你应该知道的生活真相(上)
阿里金融帝国的早晨:大数据金融的逆袭
数据说谎的艺术
从“男人比女人孝顺”和“百度医疗竞价”说起,大数据需要科学和正直的品格
七剑下天山,谈谈我认识的精准营销
十四、读书笔记
白领将是高危职业吗?读李开复新书《AI·未来》
赫拉利在《今日简史》中是如何谈算法霸权的?
从《孙子兵法》到BI运营
读《从优秀到卓越》
读周鸿祎的《极致产品》
开启心智,把时间当作朋友!
品《阿里巴巴大数据实践-大数据之路》一书(上)
品《阿里巴巴大数据实践-大数据之路》一书(下)
2017年2季度| 最近读的跟大数据相关的八本书
从罗辑思维的《得到》能得到什么?
读李开复的新书《人工智能》
1.5万字读透《未来简史》
读吴军的《智能时代》
进阶: 产品启示录
数学中的“罗辑思维”
用心找书,大数据的思想书籍推荐
“数据化”与“差不多”先生,浅谈数据量化决策
重读《大数据时代》:关于大数据的再认识
十五、杂七杂八
大数据在5G时代会有什么不同?
中国移动集中化大数据平台起航了,意义深远!
如何深入浅出的理解5G在自动驾驶、新媒体、农业、能源、医疗、工业等垂直行业的重要作用?
【图文】如何清晰的理解物联网这个概念?
父子一局棋:这该死的小升初制度
罗辑思维,且走且珍惜!
逆袭 | 运营商吸引大数据人才的七个优势
如何清晰的理解区块链?
为什么反电信欺诈这么难?