读吴军的《智能时代》
点击上方
请您点击“与数据同行”以“关注”,关于数据的实践与思考,每周一我在这里等你!
作者:傅一平 博士 浙江大学毕业 当前就职于浙江移动
在现实中,无论是大数据,还是人工智能,让大家的认知要达成一致其实很难。
吴军擅长的是用通俗易懂的语言解释一些高大上的概念,大数据、人工智能等概念被他这么一解释,的确更清晰了,无论是于有概念强迫症的同学,还是对于大数据持消极观点的人,都可以读一读,如果大家经常需要跟领导解释大数据的价值,希望游说他,也可以学习下他的表述方法。
笔者结合最有启发意义的一些内容,总结出六个观点,与大家分享,一本书真正的精髓其实不多,当然见仁见智了。
观点1:在建模上,只要数据量足够,就可以用简单的模型取代一个复杂的模型。
吴军叫他“数据驱动方法”,概率论产生后,人们希望从理论上证明当观察到的数据量足够多了以后,随机性和噪声的影响可以忽略不计,19世界的俄国数据家切比雪夫对这个问题给出了肯定的回答,即切比雪夫不等式:
P(|X-E(X)|>=Ɛ)<ơ^2/n* Ɛ^2
其中X是一个随机变量,E(X)是该变量的数学期望值,n是样本数,Ɛ是误差,ơ^2是方差,这个公式的含义是,当样本数足够多时,一个随机变量(比如观察到的各个年龄段观众的比例)和它的数学期望值(真实情况)之间的误差可以任意下。
在大多数复杂的应用中,需要通过数据建立起一个数学模型,以便在实际应用中使用,要建立模型需要解决两个问题,首先是采用什么模型,其次是模型的参数是多少。
模型的选择不是一件容易的事,在过去,无论在理论上还是工程上,大家都把精力放在寻找模型上,有了模型后,第二步就是要找到模型的参数,这一点在过去的被重视程度远不如找模型,今天它有了一个时髦的词-机器学习。
鉴于完美的模型未必存在,即使存在,找到它也不容易,而且费时间,因此就有人考虑是否通过很多简单不完美的模型凑在一起,起到完美模型的效果呢?
答案是肯定的,无论是切比雪夫不等式,还是工程实践,都已经证明,只要找到足够多的具有代表性的样本(数据),就可以运用数学找到一个模型或者一组模型的组合,使得它和真实情况非常接近。
回到数据模型,这种方法被称为数据驱动方法,因为它是先有大量的数据,而不是预设的模型,然后用很多简单的模型去契合数据。
在今天的IT领域中,越来越多的问题可以用数据驱动方法来解决,具体讲,就是当我们对一个问题暂时不能用简单而准确的方法解决时,我们可以根据以往历史数据,构造很多近似的模型来逼近真实情况,这实际上是用计算量和数据量来换取研究的时间,这种方法不仅仅是经验论,它在数学上是有严格保障的。
数据驱动方法最大的优势在于,它可以在最大程度上得益于计算机技术的进步,尽管数据驱动方法在一开始数据量不足,计算能力不够时,可能显得有些粗糙,但是随着时间的推移,摩尔定律保证了计算能力和数量量以一个指数级增长的速度递增,数据驱动方法可以非常准确,相比之下,很多其他方法的改进需要靠理论的突破,在过去30年,计算机变得越来越聪明,这并非因为我们对特定问题的认识有了多大的提高,而是因为在很大程度上我们靠的是数据量的增加。
沿着这个脉络,我们能解释很多的概念和现象,我们将统计学、机器学习、人工智能基于大数据联系起来,我们能理解大数据导致质变的原因,理解为什么要强调相关关系,理解云计算的现实意义,理解为什么AlphgoGo在理论没什么突破的前提下能够让人工智能有个突破。
我们最终能理解大数据的巨大意义,肯定将带来自工业革命,信息革命后的一次智能革命。
观点2:人工智能成功并非需要理解人类思考的方式,基于大数据的机器学习可以达到很高的境界。
努力去理解人是如何思考的方式叫做传统的人工智能,简单来讲,就是首先了解人类是如何产生智能的,然后让计算机按照人的思路去做,今天几乎所有的科学家都不坚持“机器要像人一样思考才能获得智能”,但是大多人仍然会望文生义,在谈到人工智能时依然想象着“机器在像我们那样思考”,这让他们即兴奋又担心,事实上,当我们再次回到图灵博士描述机器智能的原点时发现,机器智能最重要的是能够解决人脑所能解决的问题,而不在于是否需要采用和人一样的方法。
这段话非常精辟,能解惑很多问题,比如我们现在的人工智能提法是值得商榷的,叫它机器智能更好,在相当长的时间内也无需担心机器人像人类那样做可怕的事情。
如果你对于机器无法做到像人那样思考有疑惑的话,这里举个例子,1968年,明斯基在《语义信息处理》一书中分析了所谓人工智能的局限性:
The pen was in the box(钢笔在盒子里),这句话很好理解,如果让计算机理解它,做一个简单的语法分析即可,但是另一句语法相同的话:The box was in the pen,就让人颇为费解了,原来,在英文中,pen还有一个不常用的意思-小孩玩耍的围栏,事实上,仅仅这两句话本身,是无法判定pen在哪一句话中应该作为围栏,在哪一句中应该是钢笔的意思,事实上人对这两句话的理解并非来自语法分析和语意本身,而是来自于他们的常识,这个问题是传统人工智能方法解决不了的。
语音识别作为人工智能最核心的研究课题,历史以来基于语法规则和语意规则的方法从来达不到实用的水平,而基于统计学的机器学习却将其提升到一个新的水平,也就是说,与其让机器按照人一样去学习语法,还不如基于大量的数据采用统计的机器学习方法来解决,也就是上面提到的数据驱动方法,这种方法的本质就是假如世界上大多数这么说,匹配越多的就用这种意思,其核心就是需要足够多的数据来训练,通信上用马尔科夫模型解决通信编解码问题,同样可以适用于语音识别。
Google当前在人工智能很多领域能一骑绝尘,不是说他方法有多先进,而恰恰是其数据上的优势,未来是BAT的,也带有这份意味,假如我们再造一个BAT,也不可能再追上了原来的了,因为前者数据积累的优势太大了。
观点3:机械思维让我们觉得这个世界是确定的,是强调因果的,并且创造了辉煌的工业时代,但爱因斯坦的“上帝不掷色子”是错的。
思维方式决定科学成就,正是有了机械思维,才直接带来工业大革命的时代,从欧几里得、托勒密到牛顿,牛顿是集大成者,其核心思想可以概括成这几句话:
第一, 世界变化的规律是确定的,这一点从托勒密到牛顿大家都认可。
第二, 因为有确定性做保障,因为规律不仅是可以被认识的,而且可以用简单的公式或者语言描述清楚,这一点在牛顿之前,大部分人并不认可,而是简单地把规律归结为神的作用。
第三, 这些规律应该是放之四海而皆准的,可以应用到各种未知领域指导实践,这种认识是在牛顿之后才有的。
欧几里得的公理化体系几何学,是对世界影响力最大的一本书,不仅为几何学、数学和自然科学后来的发展奠定了基础,而且对西方人的整个思维方法都有极大的影响,甚至在法学界,整个罗马法都是建立在类似于欧几里得公理系统这样的基础上的。
托勒密创立了地心说,在近代史最伟大的天文学家,其方法论可以被概括为“通过观察获得数学模型的雏形,然后利用数据来细化模型”,直到今天,我们做事情的时候还是会首先想到这种方法,比如几乎所有的经济学家理论,都是按照这种方法提出来的,其核心思想有如下两点:首先,需要有一个简单的元模型,这个模型可能是假设出来的,然后再用这个元模型构建复杂的模型,其次,整个模型要和历史数据相符合。
东方的中国和阿拉伯帝国虽然在工程和技术上不断进步,但是既没有形成科学体系,也没有在方法论上作出太多的贡献,最终,发展科学方法的任务留给了笛卡尔和牛顿,笛卡尔提出了科学的方法论,即大胆假设,小心求证,这个方法论在我们今天的工作中还在使用。
现代工业无论是瓦特的蒸汽机、还是史蒂芬孙的火车,都是机械思维的产物,其核心思想又可以概括成确定性(或者可预测性)和因果关系。牛顿可以把所有天体运动的规律用几个定律说清楚,并且应用到任何场合都是正确的,这就是确定性,类似的,当我们对物体施加一个外力时,它获得一个加速度,而加速度大小取决于外力和物体本身的质量,这是一种因果关系,没有这些确定性和因果关系,我们就无法认识世界。
如同我们今天在谈论大数据思维和互联网思维时无意中会带有一种优越感一样,在19世界,机械思维是一个时髦的词汇,人们喜欢用这个词表示自己对近代科技的了解和所具有的理性精神。
爱因斯坦是机械思维的集大成者,是确定性和因果关系的推崇者,但牛顿和爱因斯坦能找到因果关系的原因,除了有过人的智慧外,他们的运气还特别好,或者说灵光一现,如果说牛顿被苹果砸中是杜撰出来的,那么爱因斯坦从白日梦中获得另类想法搞清楚了广义相对论却是真实的事情,这个例子说明,人类找到真正的因果关系是一件很难的事情,里面的运气成分很大,因此机械思维在认识世界还是有很多的局限性的。
爱因斯坦有句名言-“上帝不掷色子”,这是他在和量子力学发明人波尔等人争论时的话,说明了机械思维否认不确定性和不可认知性,今天我们知道,在这场争论中,波尔等人是正确的,上帝也掷色子。
观点4:这个世界本质是不确定性的,且基于信息论,可以用数据消除不确定性,其代表了人类对我们的世界认知度的最高境界。
不确定性在我们的世界无处不在,很多时候专家对未来的各种趋势预测是错的,如果细心的读者统计,就会发现基本上对错一半,这不是因为他们缺乏专业知识,而是由于不确定性是这个世界的重要特征,以至于我们按照传统搞机械论的方法难以做出准确的预测。
世界的不确定性来自于两个方面,首先是我们对这个世界的方方面面了解得越来越细致之后,会发现影响世界的变量其实非常多,已经无法通过简单的办法或公式计算结果,因此宁愿采用一些针对随机事件的方法来处理它们,比如我们在平整的桌子上掷一次色子,在其停稳之前,我们一般认为无法知道到底哪一面朝上,哪一面朝下,但是其实在色子离开手的瞬间,如果能知道色子准确的形状和密度分布,出手的力量和旋转的角速度、空气流动的速度,同时我们的计算足够精准,其实我们是能知道色子的哪个点或面接触到桌面的,如果我们还知道桌面的弹性系数和色子的弹性系数,以及这两种材质的物理性质等因素,我们就能够计算出色子弹起的高度和方向,最终计算出它停下来时哪一面朝上。
但是,由于里面很多细节难以准确测量,比如出手的速度和力量,因此考虑了所有因素计算出来的未必准确,在这种情况下,一般人干脆假定色子每一面朝上的概率是1/6。
不确定性的第二个因素来自客观世界本身,它是宇宙的一个特性,在微观世界里,电子在围绕原子核做高速运动时,我们不可能同时准确地测量出它在某一时刻的位置和运动速度,当然也就不能描绘出它的运动轨迹了,这并非我们的仪器不够准确,而是因为这是原子本身的特性,在量子力学中有一个测不准原理,这与机械思维所认定的世界的确定性是相违背的。为什么呢?因为我们测量活动本身影响了被测量的结果,对于股市操作也类似,当有人按照某个理论买或者卖股票时,其实给股市带来了一个相反的推动力,这导致股市在微观上的走向和理论预测的方向相反。
如果世界充满了不确定性,我们对未来世界的认识是否回到了牛顿之前的不可知状态?答案是否定的,就拿微观世界电子运动来说,虽然我们无法确定电子的准确位置和速度,但是能够知道它在一定时间内在核外空间各处出现的概率,在概率论的基础上,香农博士建立了一套完整的理论,将世界的不确定和信息联系了起来,这就是信息论,信息论不仅是通信的理论,也给了人们一种看待世界和处理问题的新思路。
香农在信息论中借用热力学里熵的概念,用熵来描述一个信息系统的不确定性,接下来香农指出,信息量与不确定性有关:假如我们需要搞清楚一件非常不确定的事,就需要了解大量的信息,可以认为,信息量的度量就等于不确定性的多少,想消除系统内的不确定性,就要引入信息。
与机械思维是建立在一种确定性的基础上锁截然不同的是,信息论完全建立在不确定基础上,这种思路成为信息时代做事情的根本方法,不妨用互联网广告的例子来说明上述原理的作用。
在我们对用户一无所知的情况下,在网页投放展示广告,点击率非常低,每1000次展示也只能赚到不到0.5美元的广告费,因为这等于猜测用户的需求,很不准确,如果我们10万众广告,只有10种与用户相关,那么猜中的可能性就是万分之一,如果用信息论来度量,它的不确定性为14比特左右。
搜素广告因为有用户输入的关键词,准确率会大幅提高,至于提高了多少,取决于关键词所提供的信息量,以汉字词为例,如果一个搜素输入两个词,每个词平均两个汉字,那么大约能提供10-12比特的信息量,这样大部分不确定就消除了,假定还从10万种广告中猜中10个,猜中的可能性就是十几分之一到几分之一,因此读者点击的可能性大增,在实际情况中,Google搜素广告每1000次展示所带来的收入大约50美元,比展示广告高出两个数量级,这就说明了信息的作用。类似的,像Facebook通过挖掘注册用户的使用习惯,大致能获得1-2比特的信息量,这样就将广告匹配的难度下降了一半左右。
上面虽然是一个特定的例子,但是反映出在信息时代的方法论,谁掌握了信息,谁就能够获得财富,如果工业时代,谁掌握了资本谁就获取财富一样。用不确定性这种眼光看世界,再用信息消除不确定性,不仅能够赚钱,而且能够把很多智能型的问题转化为信息处理问题,具体说,就是利用信息消除不确定性的问题,比如下棋,识别图像等,都是从众多不确定的落子点或全世界人数中去选择一个。
信息论中有一个重要概念-互信息,可以解释为什么信息的相关性可以帮助我们消除不确定性,比如通过对大数据文本进行统计发现,“央行调整利率”和“股市短期浮动”的互信息很大,这证实了它们之间有非常强的相关性。
有了信息论这样一个工具和方法论后,我们便很容易认清大数据的本质了。首先必须承认世界的不确定性,这样我们就不会采用确定性的思维方式去面对一个不确定的世界,当我们了解到信息或者说数据能够消除不确定性之后,更能理解为什么大数据的出现能够解决那些智能的问题,因为很多智能问题从根本来讲无非是消除不确定性的问题。
实在无法确定因果关系时,数据间的相关性能帮助我们得到想要的答案,这是大数据时代的思维革命。
观点5:大数据的本质特征,数量大、多维度和完备性,并不是空穴来风,可以从信息论找到答案。
过去,数据量不够不足以消除不确定性,因此数据的作用其实有限,很多人忽视它的重要性是必然的,哪个领域限积攒下足够的数据,它的研究进展就快一些,具体到机器智能,语音识别是最早获得较多数据的领域,因此数据驱动的方法从这个领域产生也就不足为奇了。
关于数据多维度的重要性问题,可以从两个角度看它,第一是前面提及的互信息,为了获得相关性通常需要更多维度的信息,第二个视角是所谓的交叉验证,比如夏天我们感觉天气闷热会下雨,但这个信息还不够,如果结合气压信息、云图等多维信息,那么预测的准确性就要大得多,因此大数据多维性的重要性,也是有信息论做理论基础的。
最后,我们从信息论的角度看数据完备性的重要性,信息论中有一个重要的概念-交叉熵,它反映两个信息源之间的一致性,当两个数据源完全一致时,交叉熵等于零,反之则很大,所有采用数据驱动的方法,建立模型所使用的数据和使用模型的数据之间需要一致性,否则这种方法就会失效,在过去,任何基于概率统计的模型都有小概率事件覆盖不到,这被认为是数据驱动方法的死穴,很多学科叫它“黑天鹅效应”,从数据完备性的角度讲,就是如果能确保训练模型的数据和使用这个模型的测试集合是同一个集合,就可能消灭黑天鹅现象。
观点6:从因果关系到强相关关系,转变思维方式很重要,这样才能更好的改变世界。
逻辑推理能力是人类特有的本领,给出原因,我们能够通过逻辑推理得到结果,在过去,我们一直非常强调因果关系,一方面是习惯,另一方面是如果我们找不出原因,常常会觉得结果不是非常可信。
按照因果关系,很多研究将不可能找到答案或者花费巨大的成本,这是无法推动社会快速进步的,以研制新药为例,为了寻找因果关系,一种处方药的研制至少需要20年的时间,花费20亿美元的投入,这就不奇怪为什么有效的新药价格非常昂贵了。
在过去,由于数量量有限,而且常常不是多维度的,相关性很难找得到,即使找到了,人们也未必接受,因为这和传统观念不同。比如20世纪90年代中期,美国和加拿大围绕香烟是否对人体有害这件事情的一些列诉讼上,如何判定吸烟是否有害是这些案件的关键,是采用因果还是采用相关性,决定了判决结果。
在今天一般人看来,吸烟对人体有害,是板上钉钉的事实,但即使存在大量的相关性铁证,依然“不足够”以此判定烟草公司有罪,因为他们认为吸烟和肺癌没有因果关系,烟草公司有很多理由来辩解,比如一些人所以吸烟,是因为身体某部分基因缺乏,而导致肺癌的,是这种基因缺陷,而非烟草中的某些物质,法律上讲,这种解释站得住脚。
但1997年,烟草公司和各州达成和解,统一赔偿3655亿美元,这场历史性胜利的背后,并不是由于找到了因果关系,恰恰是依然采用了统计上强相关性的证据,在这场诉讼中,其实人们的思维方式已经从接受因果关系,转到接受强相关关系上来了。
我们前面提到,这个世界本质是不确定性的,能找到因果关系固然好,但对于复杂的问题,难度非常大,除了物质条件、人们的努力、还要靠运气,遗憾的是,大部分时候我们并没有灵感和运气,因此,很多问题得不到解决。
可以看到,Google公司的广告推荐算法当前靠因果关系提升占比已经越来越低,更多的是强调相关性的点击率算法,当前任何电商网站的推荐算法基本也是以协同算法为核心的,在速度和准度要求越来越高的互联网,强调因果关系来解决问题是不现实的,随着整个社会数据越来越多,用相关性来解决问题的方法必将席卷全行业。
大数据相关性的提法历来争议很大,吴军不紧不慢,娓娓道来缘由,还是很有说服力,今天我们面临的复杂情况,已经不是机械时代用几个定律就能讲清楚的了,不确定性,是今天社会的常态,在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息帮助我们消除不确定性,而数据之间的相关性在某种程度可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心,其与原来的机械思维并非完全对立,更多是对后者的补充,在新的时代,一定需要新的方法论,也一定会产生新的方法论。
观点7:争当2%的人。
这一次由机器智能带来的革命,对社会的冲击将是全方位的,我们所依赖的那些所谓需要智力的工作也在消失,即使有新的行业出现,由于机器智能的影响,它所需要的就业人数相比过去的老行业也会少很多,在智能革命全面到来的时候,不可能像过去那样,把农业人口变成城市人口,把第一、第二产业变成第三产业那么简单。
虽然不知道如何在短期内消化几十亿劳动力的产业,但有个答案很简单,就是争当2%的人,在历次技术革命中,一个人,一家企业,甚至一个国家,可以选择的道路只有2条,要么进入前2%的行列,要么被淘汰。抱怨是没有用的,至于当下怎么才能成为这2%,其实很简单,是踏上智能革命的浪潮。
任何一次技术革命,最初受益的都是发展它、使用它的人,而远离它、拒绝接受它的人,在很长时间里都将是迷茫的一代,这将是一个让我们振奋的时代,也是一个给我们带来空前挑战的时代。
如果你能读到这里,就给个赞,很多人关于大数据有自己的独到看法,不喜欢被说教,诸如相关关系啥的,也被喷的厉害,但正如吴军在《硅谷来信》中提到的一样,我们需要有科学的求证精神,但科学从来不代表正确,我倒觉得前面的一些说法,的确给人以一些新的启示。
历史足迹
传统BI的认知:
大数据的实践:
数据管理的领悟:
《七幅图读懂企业的数据字典》
数据人员的修养:
运营商大数据:
我的读书笔记:
▼
与数据同行
ysjtx_fyp
长按二维码识别,关注此号!