从吴军的“算法的油水就那么多”说起!
很多传统企业在做大数据,但笔者在企业内外进行大数据培训的时候,却有很多的业务人员来问这样的问题:
“我们不懂IT技术,不懂大数据,不懂人工智能怎么办?”
“你说的有些道理,但我并不能直接将其用到市场上去,你要知道市场比你想象的复杂多了!”
正好最近吴军在《谷歌方法论》谈到计算机的角色和信息的作用时,也碰到了类似的问题,但却做了非常好的回答,当然这个回答不仅仅是面向业务人员的,对于从事大数据、机器学习、人工智能等相关领域的人士也具借鉴意义,他是这么说的:
“你们从业这么多年,积累下来的信息就是财富,不要做捧着金饭碗讨饭的事情,要善用这些信息。至于你们找的IT工具,使用的开源的人工智能算法是否最佳,没有太多关系,用不用信息,是面对金山银山取和不取的差异,模型比不过那些著名的IT公司,只不过是少了一两颗金豆而已。”
然后他举了个例子,任何致力于在大数据、机器学习上希望有更多提升的同仁,可以想想是不是这个理。
“我在清华大学电子工程系找到了语音识别这个研究方向,应该讲工作做得还不错,有一天我比较早地到实验室,实验室里也没有别人,朱教授也到了,他不是我的导师,平时从来没有和我聊过我的研究工作。这天因为实验室里就我们俩人,他来个我聊天,问我在做什么。”
“我就讲自己在寻找一种更好的模式分类方法,将发音相似的一个元音识别得更清楚些,并且取得了一些进展,降低了大约10%左右的相对识别错误率,还想再试图改进一下方法,再降低一点错误。我指望着朱教授夸我一番,然后说,不错,继续努力吧。谁知道他给我泼了点冷水,说道,你的做法虽然有效,但是也做到头了,别在这条路上再浪费时间了。”
“我当时就很纳闷,问他为什么?他对我讲,减少语音识别的错误,就等于要消除不确定性,而消除不确定性,就要使用新的信息。你使用的仅仅是你前面学生们使用过的老的信息,他们的模型做得不是很准确,使你能够有一个小的提升空间,但是你能得到的油水就这么多,再怎么玩,也玩不出什么新花样,要想进一步提高,就需要寻找新的信息来源。”
“朱教授的观点其实是转述香农已经严格证明的理论.....,以后,我越来越体会,在IT领域做事,要想获得好的结果,就需要挖掘先前别人挖掘不到的信息,如果使用的还是别人已有的信息,不论把模型建的多么准确,取得的进步都非常有限。”
吴军提到Google在搜索算法提升上,绝大多数改进都是围绕信息的使用上,90%的改进来源于找到了新的有用信息,比如上下文信息,只有不到10%的改进,在于用更好的机器学习方法,把模型的参数训练得更准确,当然,到后来最好用的信息已经不容易找了,Google的搜索部门也不得不花很多力气调整算法的精度,但是,后来那些改进,幅度只是当初改进的1/10,甚至1/100。
所谓的大数据思维,本质上就是利用信息消除不确定性,当你无法获得他人所没有的信息时,你比他人也走不远。
传统企业很多在基于机器学习做精确营销,企业的IT人员会认为用机器学习算法会比业务人员的经验规则要好很多,但效果很多差强人意,实际上在传统企业内,你会发现业务人员的很多经验规则甚至很有效,仅靠机器学习的改进,对于精确营销的提升非常有限。
老酒装新瓶,没有新的信息要提升精确营销的效果的确很难,当然我们需要更为全面的看待不确定性这个问题,从企业大数据运营的角度看,笔者觉得消除不确定性有三个方法,一靠业务理解,二靠新数据,三才是合适的算法。
1、业务第一
这个世界的复杂性、要素的多样性及有限的数据采集能力决定了我们不可能获得全部信息,除了有限规则的领域,在大多数行业,业务人员的经验输出就是最大的大数据,经过几十亿年的演化,我们的大脑几十亿神经元就是最实用的大数据存储器和机器学习引擎。
咱们先来设想一个场景,一个会议室里坐满了人,正在做报告的年轻人西装笔挺,头发书的一丝不苟,PPT上列满了数据和图表,他正在论证一个什么东西。年轻人讲了很多,可是在台下听报告的一个穿着随意的大佬,有点不耐烦了:“你不用说那么多,我就问你几个问题。”
大佬问了几个问题,年轻人马上被难住,于是大佬否决了年轻人的整个方案。
我们对这个场景并不陌生,这可能是一次数据分析会,一次跟主管的建模方案汇报,或是你去见一个客户汇报成果,大佬问问题往往是写意的,但他们三言二语就能发现问题的关键,并以此做出决策,然后事实证明大佬们说得对,大佬的经验就是消除不确定性的利器。
每个人的大脑是如此不同,基因研究甚至表明,虽然人的各个种族之间有基因上的宏观差异,但这个差异度比种族内部个体之间的差异可小多了,在一个领域内提升认知能力是做好大数据的前提。
对于建模师来讲,其实最需要的不是什么建模知识和技巧,而是认知能力,最主要的就是通识能力和对于这个专业领域的认知深度,从这个角度讲,企业的业务人员做大数据甚至更有优势。
2、数据次之
传统企业做大数据,其实能带来革命的大多依赖新数据,运营商当前提及的大数据,不是指原来就有的用户资料、产品订购、通话详单等传统数据,更多是指新采集的O域数据,比如位置、DPI等等,新老数据的整合才给了运营商在大数据领域新的机会。
我们有很多的行业合作伙伴,比如银行,银行的风控能力很厉害,但它们也需要运营商的数据来完善它们的模型,芝麻信用厉害的也不是什么模型,而是搜集数据的能力,其90%的数据来自各个行业。
新数据在提升模型效果方面的作用是巨大的,数据的维度越多,对于消除不确定的作用就越大,我们团队在内部讨论精确营销模型的时候,首先会看有没有基于新数据的新变量的引入,我们更希望用新变量来带来模型质的提升,而不是不停的变换算法,比如以前常驻地判断依靠的是通话话单附带的位置信息,但如果用户不通话就没有位置数据了,引入了位置信令后覆盖度就大幅度提升了,现在新引入的MR数据又使得常驻地判断更准了,这些其实都不需要什么建模,数据科学家、人工智能算法在新数据面前,都得往后排。
很多企业会面临数据采集“鸡生蛋,蛋生鸡”问题,因为采集数据是有成本的,笔者的想法则比较激进,采集数据应该升级为企业的战略,不仅要采集全已有的数据,还需要创造条件获得更多外部数据,比如我们搞的爬虫、行业知识图谱、MR数据都是为了获得新数据,这些新数据让拓客能力提升了一个层次,但大多企业只是把这个当成PPT的一段文字,很难有实质性的推进。
数据采集应是企业数据管理团队最重要的工作。
3、算法第三
算法的目的就是发现规律,它天生就是为消除不确定性而生的,但优先级却是最低的,因为如果企业真到了要靠新算法来来解决问题的时候,油水可能已经不多了,当然有人会问,现在语音识别、图像识别都是靠算法获得了重大突破,使得很多应用成为可能,怎么会油水不多呢?
如果你看看语音识别和图像识别经历了多少坎坷才达到现阶段的水平,你就知道这个活一般的企业是干不了的,虽然这么说有点功利,但的确是事实,传统企业肯定无法靠研发算法来获得大数据的进步,而是要思考如何利用好现有的算法为自己的企业服务。
互联网公司的很多算法已经比较成熟,现在来看,传统企业需要基于自己特有的数据利用好这一波算法的红利,比如天盾反欺诈利用的是以前运营商很少用的时间序列算法,属于老数据+新算法获得的红利,实名认证利用了CNN等图像识别算法,视频推荐利用了矩阵分解、协同过滤等较为成熟的推荐算法,行业知识库则利用了自然语言处理的一些东西,不胜枚举。
笔者觉得现在很大的问题是传统企业对于这些算法的认识还是比较浅的,虽然我们大概知道有哪些,但并不太清楚这些算法的适用场景,比如反欺诈肯定是不适合用分类算法做的,因为正负样本相差太多了,这其实是个异常检测的问题,但碰到这类问题我们开始往往束手无策。
笔者曾经思考过,运营商既然有较好的时空连续大数据,为什么不能针对时空做个大聚类,看看各个类别的人群有什么特征,比如我们原来考虑过什么样的线下场景会触发用户更多使用流量呢,男同胞陪女士逛商城?,但一直做不出来,一是因为数据量过大,根本不知道如何转换,二是也不知道用什么算法,我们的很多流量营销场景实际是想出来的,而不是数据验证的结果,当然经验很重要,但经验也限制了我们的想象力。
其实传统企业也缺乏使用大规模并行算法的工程经验,有海量的数据却很难挖到更多的价值信息,记得当初基于TF ON SPARK搞个测试调通程序就花了半年,底子还是薄了,全部要自己研发也似乎不现实,现在社交网络已经发现了不少机会,但价值显现需要很长的时间。
算法第三并不是贬低它,而是从性价比的角度来讲的,在业务和数据无法有质的提升的情况下,改善算法几乎是唯一的方法,但我们对于算法的使用效率还是很低的。
因此,传统企业在利用大数据从不确定性走向确定的时候,方法还是非常重要的,做正确的事比把事做正确更重要!
作者:傅一平 就职于浙江移动大数据中心 微信号:fuyipingmnb 欢迎交流!
浙江移动大数据商务联系邮箱:bigdata@zj.chinamobile.com