查看原文
其他

读百本书094《数学之美》


第一部分 此书情境


 【主要内容】“数学之美”系列文章原刊载于谷歌黑板报,获得上百万次点击,得到读者高度评价。读者说,读了“数学之美”,才发现大学时学的数学知识,比如马尔可夫链、矩阵计算,甚至余弦函数原来都如此亲切,并且栩栩如生,才发现自然语言和信息处理这么有趣。

  《数学之美》正式出版前,吴军博士几乎把所有文章都重写了一遍,为的是把高深的数学原理讲得更加通俗易懂,让非专业读者也能领略数学的魅力。通过具体实例教会读者在解决问题时如何化繁为简,如何用数学去解决工程问题,如何跳出固有思维不断去思考创新等。

  《数学之美》介绍了语音识别、自然语言处理、文本处理、搜索引擎、搜索引擎反作弊、网页排名技术、导航、本地搜索、搜索广告、中文分词、网络爬虫、新闻分类、信息指纹、拼音输入法、人工智能网络等等互联网应用的数学模型和原理,涉及统计语言模型、隐含马尔可夫模型、布尔代数、图论、有限状态机、动态规划、余弦定理、最大熵模型、布隆过滤器、矩阵运算、马尔可夫链、贝叶斯网络、条件随机场、维特比算法、期望最大化算法等等。


 【作者介绍】吴军博士,毕业于清华大学计算机系(本科)、电子工程系(硕士)和美国约翰·霍普金斯大学计算机科学系(博士)。是著名自然语言处理和搜索专家,硅谷风险投资人。

  在清华大学和约翰·霍普金斯大学期间,吴军博士致力于语音识别、自然语言处理,特别是统计语言模型的研究。他曾获得1995年全国人机语音智能接口会议的最佳论文奖和2000年Eurospeech的最佳论文奖。

  他的著作《浪潮之巅》《硅谷之谜》《数学之美》《文明之光》《大学之路》和《具体生活》等广受读者欢迎,其中《数学之美》荣获第八届国家图书馆文津奖,《文明之光》荣获2014“中国好书”奖,《大学之路》荣获2015年“华文好书”奖,《浪潮之巅》成为许多高校商学院、计算机学院、软件学院和信息学院的教科书及参考书。

  2002年加入Google公司,在Google,他和Amit Singhal(Google院士,世界著名搜索专家)、Matt Cutts(Google反作弊官方发言人)等三位同事一起开创了网络搜索反作弊的研究领域,并因此获得Google工程奖。2003年,他和Google全球架构的总工程师朱会灿博士等共同成立了中日韩文搜索部门。吴军博士是当前Google中日韩文搜索算法的主要设计者。在Google期间,他还领导了许多研发项目,包括许多与中文相关的产品和自然语言处理的项目,并得到了当时公司首席执行官埃里克·施密特和创始人谢尔盖·布林的高度评价。此外,他还在谷歌黑板报上发表了《数学之美》系列博客。

  2010年,吴军博士离开Google,加盟腾讯公司,担任负责搜索业务、在线广告和云计算基础架构的副总裁。并担任国家重大专项“新一代搜索引擎和浏览器”项目的总负责人。

  2012年,回到Google负责开发了被认为是“下一代搜索”的谷歌自动问答系统。同年,他作为创始合伙人创立了丰元风险投资基金(ZPark Captial),并且投资了90多家硅谷的初创公司。此前,他作为中国世纪基金的董事,在中国投资数家科技企业,均于2015年之前上市或被收购。

  吴军博士在国内外发表过数十篇论文,并获得和申请了十余项美国和国际专利。他撰写的《浪潮之巅》一书深受业界的好评。他于2007年起担任风险投资基金中国世纪基金的董事。2011年起,当选为约翰·霍普金斯大学工学院董事会董事,并在该校的国际事务委员会担任顾问。

  吴军博士是国家重大专项“新一代搜索引擎和浏览器”项目的总负责人,从2012年起任职工业与信息化部的专家和顾问。



 【出版时间】人民邮电出版社2014年11月第2版,2016年4月第9次印刷。


第二部分 阅读情境


 【读书插曲】阅读《超级合作者》的过程中,深刻体会到作者马丁·诺瓦克对数学的赞誉。他在研究进化动力学中大量使用数学工具,并对数学赞不绝口,边阅读,边想起了国融证券IT的兄弟们前几年送我的生日书是《数学之美》。因为觉得高深,《数学之美》已经在书架上躺了几年,翻出来读读!



 【阅读感悟】

  ※为什么文章中要用图表和表格来表达?因为语言有局限性。需要借助数学来表达。一个矩阵的信息量远远胜过一大段语言。数学无处不在,数学的力量无处不在。马丁·诺瓦克的《超级合作者》中提到“用矩阵来代表沟通。在我们的日常生活中,常用这种方式来表达不同数据之间的关系。回忆一个列出车票价格和目的地的表格,显示火车到达不同地点时间的列车时刻表,表现投资期限与利率的表格,以及不同重量的鸭子所需要的烘焙时间等”。


  ※自然语言的计算机处理过程,分为两个阶段,第一阶段的20年其实是走了弯路,但这是人类认知能力的发展过程。刚看完这段,出门上班,路遇一家长送中学生上学,分别时千叮咛万嘱咐,恨不得把家长已经认识到的结论灌输给学生,希望对学生有所帮助。看到这一幕,突然感觉到,教学生结论,不如教学生认知方法,培训学生的认知能力,认知能力才是最重要的。授人与鱼不如授人以渔,道理都懂,但鲜有人做到。培养员工也一样,只有在风险可控的情况下让员工多历练,才能快速成长。


  ※计算机的语音识别、机器翻译等等技术很神奇,机器怎么就能听懂人话呢?搜索引擎怎么就那么快地搜出内容来?自动停车场的探头怎么识别出来的车牌号?吴军博士的《数学之美》简明扼要地、深入浅出地把原理进行了科普。《数学之美》可以当作理解人工智能的入门教程来读,非常值得一读。


  ※吴军博士在《浪潮之巅》第四版前言“有幸见证历史”中提到,“2016年年初,Google的AlphaGo围棋软件在五番棋的比赛中战胜了围棋世界冠军李世石九段,这标志着机器智能的水平达到了一个新的高度。可以毫不夸张地讲,接下来的20年信息技术将更加精彩。”因此,为了不落后于时代,自己接下来,应该多读些信息技术的书。加油!


 【阅读时间】2019年09月03日至09月09日

 【之前阅读】

《2019年上半年阅读书目》

《2018年下半年阅读书目》

《2018年上半年阅读书目》

《2017年阅读书目》

《刘润老师2017年推荐的20本书》


第三部分 精彩书摘


  ※简单性原则。牛顿是伟大的物理学家和数学家,他在《自然哲学的数学原理》中叙述了四条法则。其中有“法则1:除那些真实而已足够说明其现象者外,不必去寻找自然界事物的其他原因”。这条法则后来被人们称作“简单性原则”。正如爱因斯坦所说:“从希腊哲学到现代物理学的整个科学史中,不断有人力图把表面上极为复杂的自然现象归结为几个简单的基本概念和关系。这就是整个自然哲学的基本原理。”这个原理也贯穿了《数学之美》本身。(李星的第一版序言)


  ※WWW 的发明人蒂姆•伯纳斯•李谈到设计原理时说过:“简单性和模块化是软件工程的基石;分布式和容错性是互联网的生命。”(李星的第一版序言)


  ※我给学生出过这样的考题:把过去十年来重要IT杂志的封面上重点推荐的技术专题找来看看,瞧一瞧哪些技术成功了,哪些技术是昙花一现,分析一下原因?其答案很有意思:“有正确设计思想方法的技术”未必能够成功,因为还有非技术的因素;但“没有正确设计思想方法的技术”一定失败,无一例外。因此,我也建议本书的读者结合阅读,体会凝练创造《数学之美》的方法论。(李星的第一版序言)


  ※欣赏美不是终极目的,更值得追求的是创造美的境界。(李星的第一版序言)


  ※伽利略曾经说过,“数学是上帝描写自然的语言”;爱因斯坦也曾说过,“纯数学使我们能够发现概念和联系这些概念的规律,这些概念和规律给了我们理解自然现象的钥匙。”(李开复的第二版序言)


  ※现在的社会多了一点压力和浮躁,少了一点踏实和对自然科学本质的好奇求知。(李开复的第二版序言)


  ※自然语言处理60多年的发展过程,基本上可以分成两个阶段。早期的20多年,即从20世纪50年代到70年代,是科学家们走弯路的阶段。全世界的科学家对计算机处理自然语言的认识都局限在人类学习语言的方式上,也就是说,用电脑模拟人脑,这20多年的成果近乎为零。直到20世纪70年代,一些自然语言处理的先驱开始重新认识这个问题,找到了基于数学模型和统计的方法,自然语言处理进入第二个阶段。


  ※1956的达特茅斯夏季人工智能研究会议首次提出人工智能概念。参加者:28岁的约翰·麦卡锡(John McCarthy)、同龄的马文·明斯基(Marvin Minsky)、37岁的罗切斯特(Nathaniel Rochester)、40岁的克劳德·香农(Claude Shannon)、40岁的赫伯特·西蒙(Herbert Simon)、28岁的艾伦·纽维尔 (Allen Newell)、司马贺(Herbert Simon)、塞弗里奇(Oliver Selfridge)、撒缪尔(Arthur Samuel)、伯恩斯坦、达特茅斯的教授摩尔(Trenchard More)、所罗门诺夫(Solomonoff)。其中4位获得过图灵奖:麦卡锡、明斯基、西蒙、纽维尔。克劳德·香农是信息论的创始人,他在科学史上的地位和图灵是相当的,而且通信领域的最高奖就是以他的名字命名的。


  ※语言学大师雅格布森(Roman Jakobson)的通信六要素:发送者(信息源),信道,接受者,信息,上下文和编码。


  ※一个人想要在自己的领域做到世界一流,他的周围必须有非常多的一流人物。


  ※贾里尼克和波尔、库克以及拉维夫的另一大贡献是BCJR算法,这是今天数字通信中应用最广的两个算法之一(另一个是维特比算法)。


  ※贾里尼克教授在学术上给我最大的帮助就是提高了我在学术上的境界。他告诉我最多的是:什么方法不好。在这一点上与股神巴菲特给和他吃饭的投资人的建议有异曲同工之处。巴菲特和那些投资人讲,你们都非常聪明,不需要我告诉你们做什么,我只需要告诉你们不要去做什么(这样可以少犯很多错误),这些不要做的事情,是巴菲特从一生的经验教训中得到的。


  ※技术分为术和道两种,具体的做事方法是术,做事的原理和原则是道。以搜索引擎为例,很多具体的搜索技术很快会从独门绝技到普及,再到落伍,追求术的人一辈子工作很辛苦。只有掌握了搜索本质和精髓才能永远游刃有余。很多人想通过“术”,来走捷径,但是真正做好一件事没有捷径,离不开一万小时的专业训练。最好搜索,最基本的要求就是每天分析10-20个不好的搜索结果,累积一段时间才会有感觉,在Google的第一技术负责人阿米特·辛格至今依然经常分析那些不好的搜索结果。但是,很多做搜索的工程师(美国的,中国的都有)都做不到这一点,他们总是指望靠一个算法、一个模型就能毕其功于一役,而这并不现实的。


  ※布尔(George Boole)是19世纪英国的一位中学数学老师,还创办过一所中学。后来在爱尔兰科克(Cork)的一所学院当教授。但生前没有人认为他是数学家,虽然他曾经在《剑桥大学数学杂志》上发表过论文。(英国另一位生前没有被公认为科学家的是著名物理学家焦,虽然他生前已经是英国皇家科学院院士,但是他的公认身份是啤酒商。)布尔在工作之余,喜欢阅读数学论著,思考数学问题。1854年,布尔的《思维规律》一书出版,第一次向人们展示了如何用数学的方法解决逻辑问题。在此之前,人们普遍认为数学和逻辑是两个不同的学科,今天联合国教科文组织依然把它们严格分开。


  ※在布尔代数提出后80多年里,它确实没有什么像样的应用,直到1938年香农在他的硕士论文中指出用布尔代数来实现开关电路,才使得布尔代数成为数字电路的基础。所有的数学和逻辑运算,加、减、乘、除、乘方、开方,等等,全都能转换成二值的布尔运算。正是依靠这一点,人类用一个个开关电路最终“搭出”电子计算机。数学的发展实际上是不断地抽象和概括的过程,这些抽象了的方法看似离生活越来越远,但是它们最终能找到适用的地方,布尔代数便是如此。


  ※布尔代数对于数学的意义等同于量子力学对于物理学的意义,它们将我们对世界的认识从连续状态扩展到离散状态。在布尔代数的“世界”里,万物都是可以量子化的,从连续的变成一个个分离的,它们的运算“与、或、非”也就和传统的代数运算完全不同了。现代物理的研究成果表明,我们的世界实实在在是量子化的而不是连续的。


  ※离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔代数。


  ※后来做一个全新的中、日、韩文搜索算法时,作者写了一个效果虽然很好,但是占用内存较多的算法,当然Google的服务器数量还没有现在这么多,不可能为了中日韩这三个占总流量不到10%的语言额外增加一批服务器。辛格提出用一个拟合函数替代很耗内存的语言模型,这样不需要增加任何服务器。但是,这样一来搜索质量的提高幅度只有原来采用大模型时的80%。我对此多少有点不甘心。辛格解释说,这样我们至少可以提早两个月将这个新算法提供给中国的用户,而且用户体验也会有质的提高,这是雪中送炭。我们暂时放弃掉的20%收益,对用户而言不过是锦上添花。我接受了他的建议,在2003年初我发布了第一个专门为中日韩语言设计的搜索算法。一年后,Google的服务器数量也有所增加。我在模型压缩上也有了进步,这时便发布了完整的中日韩语言搜索算法。辛格这种做事情的哲学,即先帮助用户解决80%的问题,再慢慢解决剩下的20%问题,是在工业界成功的秘诀之一。许多失败并不是因为人不优秀,而是做事情的方法不对,开始追求大而全的解决方案,之后长时间不能完成,最后不了了之。


  ※真正创立了天文学,并且计算出诸多天体运行轨迹的是两千年前古罗马时代的克劳第斯·托勒密。虽然今天我们可能会嘲笑托勒密犯的简单错误,但是真正了解托勒密贡献的人都会对他肃然起敬。作为数学家和天文学家的托勒密,他有很多发明和贡献,其中任何一项都足以让他在科学史上占有重要的一席之地。托勒密发明了球坐标(我们今天还在用),定义了包括赤道和零度经线在内的经纬线(今天地图就是这么划的),他提出了黄道,还发明了弧度制(中学生学习的时候可能还会感觉有点抽象)。当然,他最大也是最有争议的发明是地心说。中国古代著名天文学家张衡提出的浑天说,其实就是地心说,但是张衡没有能定量的进行描述。其实,托勒密在天文学上的地位堪比欧几里得之于几何学,牛顿之于物理学。


  ※根据托勒密的计算,制定了儒略历,即每年365天,每4年增加一个闰年,多一天。1500年来,人们根据他的计算决定农时。但是,经过了1500年,托勒密对太阳运动的累积误差,还是多出了10天。由于这十天的差别,欧洲的农民从事农业生产差出几乎一个节气,很影响农业。1582年,教皇格利高里十三世在日历上取消掉10天,然后将每一个世纪最后一年的润年改为平年,然后每400年再插回一个闰年,这就是我们今天用的日历,这个日历几乎没有误差。为了纪念格利高里十三世,我们今天的日历也叫格利高里日历。


  ※波兰天文学家哥白尼提出了日心说。日心说要想让人心服口服地接受,就得更准确地描述行星运动。完成这一使命的是约翰内斯·开普勒。开普勒在所有一流的天文学家中,资质较差,一生中犯了无数低级的错误。但是他有两样别人没有的东西,首先是从他的老师第谷手中继承的大量的、在当时最精确的观测数据,其次是运气。开普勒很幸运地发现了行星围绕太阳运转的轨道实际上是椭圆形的,这样不需要用多个小圆套大圆,而只要用一个椭圆就能将星体运动规律描述清楚了。开普勒为此提出了三个定律,形式都非常简单,就是三句话。只是开普勒的知识水平不足以解释为什么行星的轨迹是椭圆形的。


  ※开普勒定律第一定律(椭圆定律):所有行星绕恒星的轨道都是椭圆,恒星在椭圆的一个焦点上。开普勒定律第二定律(面积定律):行星和恒星的连线在相等的时间间隔内扫过相等的面积。开普勒定律第三定律(调和定律):行星绕太阳公转周期的平方与它们的椭圆轨道的长半轴的立方成正比。


  ※最大熵原理指出,对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而应对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小。


  ※自然语言处理的教父马库斯。将自然语言处理从基于规则的研究方法转到基于统计的研究方法上,贡献最大的有两个人:一个是我们前面介绍过的贾里尼克,他是一位开创性人物;另一个是将这个研究方法进一步发扬光大的米奇·马库斯( MitchMarcus)。和贾里尼克不同,马库斯对这个领域的贡献不是直接的发明,而是通过他造福于全世界研究者的宾夕法尼亚大学LDC语料库以及他的众多优秀弟子。当然,凭借对数据的贡献,还不足以让马库斯获得教父的地位。马库斯有点像日本围棋领域的木谷实,他的影响力很大程度上是靠他的弟子传播出去的。放手让博土生研究自己感兴趣的课题,这是他之所以桃李满天下的原因。马库斯的博士生研究的题目覆盖了自然语言处理的很多领域,而且题目之间几乎没有相关性,因为这些题目大多是博士生自己找的,而不是马库斯指定的。


  ※木谷实是日本著名的围棋教育家,他的弟子石田芳夫、加藤正夫、武宫正树、小林光一和赵治勋在1970-2000年统治日本棋坛30年。


  ※维特比算法是现代数字通信中最常用的算法,同时也是很多自然语言处理、路径分析等采用的解码算法。可以毫不夸张的说,安德鲁·维特比是对我们今天生活影响力最大的科学家之一,我们的日常生活中使用的很多工具应用,都在使用中维特比算法。例如,常用的移动通信3G网络、CDMA网络通信协议、导航仪中的路径选择,都采用了维特比算法。在1967年,他发明了维特比算法,用于快速对隐含马可夫模型进行解码。但是,维特比并不满足于停留在算法本身,而是努力将它推广应用。为此,他做了两件事:首先,放弃了算法的专利,第二,他和雅各布博士一起创立了一家公司Linkabit,将算法做成芯片,卖给其他通信公司。维特比已经比一般科学家要走的远很多了,但是,这仅仅是他辉煌人生的迈出的第一步。之后,他和雅各布博士利用维特比算法完善了无线通信领域的CDMA协议,并申请了专利,在1985年成立了高通公司。随着移动通信技术的广泛应用,现在高通公司已经超过Intel公司,成为全球市值最高的半导体公司。我们很难把一个科学家和(在国内因为专利收费,名声不是太好)商业巨擘高通联系在一起,但是,就是这个犹太科学家一手建立了这家成功的高科技公司。


  ※如果把维特比算作数学家中的一员,那么他也许是全世界有史以来第二富有的数学家(第一富有的无疑是文艺复兴技术公司的创始人基姆·塞蒙斯)。


  ※世界上最好的学者总是有办法深入浅出地把大道理讲给外行听,而不是故弄玄虚地把简单的问题复杂化。


  注:本文将归档在本公众号的“小编备忘-读书笔记-阅读书目”栏目。

行万里路,读万卷书

健康的体魄,健康的灵魂

生命在于运动,境界在于读书

每日步行一万步,每日读书半小时


继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存