教授讲专业 | 金勇进:统计学,令人心动的专业
编者按
“大学之道,在明明德。”大学是学问的中心,是帮助青年人涵养心智、锤炼意志、放飞理想的平台。而大学的专业教育本质上是一种博雅和理性的活动,是志趣相投的一批人的智慧激荡。在【教授讲专业】栏目,我们邀请了人民大学的名师大家、杰出学者讲述专业的历史积淀、特色亮点、发展前景等,为高中生们找寻专业兴趣、确立专业目标、理性选择专业提供权威参考。
金勇进,中国人民大学“杰出学者”、统计学院教授,博士生导师。曾担任统计学院院长、教育部重点研究基地“应用统计科学研究中心”主任,享受国务院政府特殊津贴。现任中国商业统计学会会长,市场调查与分析研究会会长,北京市统计学会顾问。主要研究方向包括抽样理论与方法,统计调查技术,数据分析,缺失数据统计处理等。任国家社会科学基金,国家自然科学基金,教育部哲学社科基金项目通讯评审专家,担任多家学术期刊的编委或专家指导委员会委员,作为项目主持人承担国家社科基金,国家自科基金,教育部重大项目、国际合作交流项目等各项科研课题50余项,出版主要专著有《非抽样误差分析》《满意度评估系统应用研究》《缺失数据的统计处理》《统计数据质量评估:误差效应分析与用户满意度测评》《复杂样本的模型推断》等,获省部级以上教学/科研成果奖20多项。
统计学,令人心动的专业
实现财务自由早,人生没有几多愁
——与青年朋友谈谈财务管理专业
已经有太多的材料介绍统计学,这里不妨换一种方式,以现实中一些有趣的故事为切入点,谈谈为什么统计学会令人心动。
2016年发生的两个很有特点事件分别是ALphaGo在古老的、变幻莫测的围棋比赛中击败世界冠军李世石和美国总统大选希拉里意外出局,这两件事情都与数据有关。
先说ALphaGo,2016年春季机器人ALphaGo与围棋世界冠军李世石在万众瞩目下展开了一场“人机大战”,结果ALphaGo以4∶1取得胜利,并由此在一年内两次登上世界顶级学术刊物Nature封面。然而故事还没有完,ALphaGo升级版Master在2016年底悄然来到网络围棋平台,肆虐棋坛近一周,连胜一线的所有世界冠军、60名专业高段棋手后又悄然离去,留下一个被搅乱的围棋世界。从技术角度分析,机器人战胜人类,是因为计算机的强大计算能力,事先将大量人类最高水平的棋谱(数据)输入,利用”局面评估函数”,沿着一个繁茂的多枝杈大树,用机器学习的方法,搜索胜率最高的路径。当局面评估函数精确到一定程度,就可以带来搜索能力的巨大进步,数据开发者可以利用评估函数进行高效率剪枝,节省出来的计算能力可以用于更深的推导,产生出更多新的知识。这次Master在每步30秒的快棋中仅几秒钟就出手,并在顶级高手对决中取得60场连胜就是很好的说明。作为ALphaGo团队的核心人物,代表机器人出棋的黄士杰博士,毕业于台湾师范大学,其博士论文就是”应用电脑围棋的蒙特卡洛树搜索法的新启发式算法”,运用机器学习的方式,把复杂逻辑放到多达几百M的多层神经网络系数里,通过海量数据把这些系数训练出来。机器学习是统计学数据挖掘领域的重要知识内容。
再说2016美国总统大选希拉里意外出局。美国总统大选预测是有历史的,该预测是采用抽样调查的方法,在选民中抽取少量人为样本,根据样本调查结果对总体进行推断。被称为民意调查创始人乔治·盖洛普(George Gallup)是美国舆论统计学家,1935年创建美国民意调查研究所,开始正式进行各类全国性民意调查。在1936年美国大选中,另一个著名机构”文艺文摘”宣称根据他们对240万选民调查,共和党候选人兰登将会当选,而盖洛普公司基于对5万选民的调查,预测民主党候选人罗斯福将获胜。事实证明盖洛普公司预测正确,样本量5万比样本量240万预测还要准确,从此盖洛普公司名声大振,由此也催生和带动了美国的民意调查、市场调查业的发展,促进调查的技术方法不断成熟,这几十年来美国总统大选预测无一失手。这次调查机构普遍预测希拉里将会赢得大选,但选举结果却令人大跌眼镜,专家们进行总结和反思。其实,就最后个人选票看,希拉里是高于特朗普的,但美国的选举法则是,如果哪个州候选人票多,那个州的选票就全部属于该州获胜的候选者。这样,希拉里和特朗普的决斗胜负就取决于几个摇摆州,希拉里只要在其中一个州胜出就可获得最后顺利,但命运却偏偏眷顾特朗普。媒体说,投票结果公布后奥巴马政府情报部门进行调查,发现有国外因素涉入,俄国在投票前公布了一些破解的不利于希拉里的绝密文件,影响了最后投票的走势。特朗普也承认”黑客门”的信息对自己有利,但反驳说外部势力没有、也不可能改动选票。除了这个因素外,分析还认为,有人查阅了网站竞选预测指针的源代码,发现其变化并非来自实时数据,而是呈现随机摇摆,并由此进行推测样本点的分布不够均匀。调查中的缺失数据和失真数据是一个重要原因,许多特朗普的支持者在调查中保持沉默,或者说了假话,对统计推断产生误导。上述分析表明,预测失败不是因为抽样技术和统计推断不科学,反而恰恰是偏离了正确的抽样,推断中没有顾及到关键的影响变量。
上面说到的两个故事是统计学在数据挖掘和抽样调查领域的应用,但统计学的应用领域绝不仅仅是这些。
诺贝尔经济学奖设立于1969年,是瑞典国家银行为庆祝建行300周年,以诺贝尔的名义设立的。近几十年来,诺贝尔经济学奖见证了经济学研究所取得的成果,也反映了数学和统计学对于经济学发展所起的重要作用。从数据出发,运用统计学方法建立经济学模型,研究经济现象,阐明经济学理论,是经济学进行研究的重要方法,因为经济学离不开数据,进行数据分析就需要统计学方法。据统计,在诺贝尔经济学获奖者中,具有数学和统计学博士学位的占到六分之一,另外一些人,虽然其博士学位不是数学或统计学,但数学和统计学知识很强和较强的合计占到近80%,这是一个很高的比例。第一届诺贝尔经济学奖获奖者就是两位统计学家,一个是Ragnar Frisch(1895—1972),是奥斯陆大学教授,1926年在奥斯陆大学获统计学博士学位;另一位是Jan Tinbergen(1903—1994),是荷兰中央统计局的统计学家,其代表作为”经济周期理论的统计检验”。
统计学在质量管理中扮演着重要的角色,早期的产品质量控制图就是基于正态分布的假设检验理论。20世纪60年代兴起的全面质量管理和”田口方法”则广泛应用了实验设计、方差分析等多种统计学方法。80年代兴起的六西格玛管理是全面质量管理的继承和发展,它是以数据为基础,追求几乎完美(零缺陷)的质量管理方法,其合格率要求达到99.99966%,也即缺陷率小于百万分之3.4。六西格玛管理是市场竞争的产物,发源于80年代的美国摩托罗拉公司。当时,摩托罗拉公司在与日本公司的竞争中屡战屡败,先是失去了收音机和电视机市场,随后又失去了BP机和半导体市场。残酷的竞争现实使摩托罗拉高层决心脱胎换骨,在全公司开展了以”零缺陷”为奋斗目标的质量改进运动,逐步形成一套基于统计学方法以提高产品质量的系统化方案,即六西格玛管理方法,使摩托罗拉从一个濒于倒闭的公司发展成为世界知名、质量与利润都领先的公司。
在统计学的应用领域中,文学著作的统计分析是一个有趣的话题,就是用统计分析方法鉴别文学作品的真实作者。一个案例是关于莎士比亚新诗的鉴定,1985年11月14日,学者G.Taylor在保存莎士比亚著作的图书馆中发现写在纸片上无年代、无作者、仅有9节429字从未见过的新诗,他们对此诗展开分析,分析方法是比较莎士比亚著作中不同单词使用的频数分布,以及新发现的无名诗不同单词的频数分布,应用统计方法中非参数经验贝叶斯估计和泊松回归的显著性检验方法,得出该诗风格与莎士比亚其他著作用词风格完全一致,这首无名诗确为莎士比亚所作,并把研究成果发表在学术刊物Biometrika上,著名统计学家Rao在他的名著《统计与真理》一书中把这个研究成果誉为”一曲统计学的赞歌”。另一个经典案例是《静静的顿河》的作者之争。《静静的顿河》是描写苏联十月革命前后动荡岁月中,人民和个人跌宕起伏的命运,以及多姿多彩生活的史诗性鸿篇巨制,作者是肖洛霍夫。但此书的著作权一直存在争议,许多人认为该书剽窃了作家克鲁乌科夫的手稿,克鲁乌科夫的家属也曾多次提出抗议,就连斯大林女儿阿利卢耶娃也说,肖洛霍夫是从一个死去的白军军官那里窃取了手稿,然后变成自己的书。在这个背景下,挪威奥斯陆大学的Geir Kjetsaa教授带领一个团队应用统计学方法对该书的著作权问题进行了分析,他们把研究对象分成三组,一个是《静静的顿河》,一个是肖洛霍夫没有争议的著作,一个是克鲁乌科夫没有争议的著作。对上述三组著作,设置多个语言参数,如不同词汇总量、不同词汇量所占百分比,最常见词汇在著作中出现的频数和频率,不同词汇的分布等。通过复杂的计算,语言参数表明,《静静的顿河》的语言风格与肖洛霍夫没有争议著作的语言风格十分相似,而与克鲁乌科夫没有争议的著作的语言风格存在显著性差别。他们从统计学角度提供了《静静的顿河》为肖洛霍夫所著的有力证明,这个研究成果写成一本专著《关于<静静的顿河>的作者》于1984年出版。事后的1987年和1991年陆续找到作者该书的部分草稿从实物角度印证了分析的正确。
前面关于统计学应用的故事也仅仅是沧海一粟,统计学是一门关于数据的科学,是研究如何搜集数据、分析数据,并由数据得出结论的一整套系统的理论与方法。随机性和规律性是统计学体系中的主线,并由此引申出许多不同领域中统计方法的讨论。
随机性是指不能够预测某一特定事件的结果,规律性是指我们从许多事件中搜集数据、分析数据后发现的模式。规律性本身包含随机性,是通过随机现象表现出来的,统计学就是通过随机性寻找其中的规律性,并根据随机性和规律性之间的差异进行统计判断。因此,从哲学思想认识论的角度看,统计学基本上属于归纳思维,是由具体到一般,也就是对反映随机性质的具体事件分析上升到对事物规律性质的一般性认识。
正因为统计学是一门关于数据的科学,在历史迈入大数据时代后,统计学承载了更多的历史责任。”数据科学家”一词,几年前人们还有些陌生,但现在已是脍炙人口。一个专业的成长与发展,是与时代的发展息息相关的,生产力越发展,生产力中蕴含的科技含量越高,对数据科学家的需求就越大。在美国硅谷,刚入行的数据科学家的平均薪酬达到年收入11万到12万美元,从国内行业平均薪酬看,从事计算机和数据分析的职位工资也排在行业前端。2014年刊登在Glassdoor上的一份调查报告显示,被评出的使工作和生活平衡(work-life balance)的最佳岗位是数据科学家,美国国家劳工统计局数据显示,在美国,数据分析师是成长排名第二的职业(第一位是护士),劳工统计局最新就业报告预计,到2018年将有80万人加入数据分析行业(增幅为53.4%),数据分析将成为一个偌大的就业市场。
统计学技术应用领域广泛,统计学思想浅明又深奥,学习统计学知识既生动有趣,又富有挑战性,统计学就业前景一片光明。这些,的确都是令人心动的地方,但这些都还不足以说明这是最好的专业。什么是最好的?适合你自己的才是最好的。选择统计学专业,首先要对数据分析有无穷无尽的兴趣,能在学习过程中快速培养对数字的敏感;同时要有较好的数学基础和运用计算机能力;数据分析有时也会枯燥,所以也要具备耐得住寂寞、永不言败、勇往直前的奋发精神。
中国人民大学统计学科人才济济,这里有全国最知名的统计学专家和朝气蓬勃的研究梯队,有全国最优秀的学生,有良好的学习氛围。在2017年全国第四轮学科评估中,中国人民大学统计学科获评A+。如果你有志于统计学,并认为该专业是适合你的,中国人民大学就是你最好的选择,这里将会是你迸发青春、展示才华的最好舞台!
中国人民大学统计学院期待你的到来!
专业常见问题解答
统计学专业的学习(研究)对象是什么?
以应用为背景的数据分析基础理论和方法,主要研究包括观察和实验数据的收集、分析的理论和方法、统计推断、统计决策的原理以及特定的统计推断形式、理论模型和样本结构等。
为什么要选择人民大学的统计学专业?
统计学专业目前教师40余位,具备统计学一级学科硕士点和博士点,在全国处于领先水平。著名统计学家戴世光教授是概率论与数理统计老一辈学术带头人,在国内统计界享有盛誉。而今,一批优秀中青年教师也崭露头角,迅速成长为教学科研骨干力量,通过长期探索与反复实践,已逐步形成独特的学术风格和办学特色,积累了丰硕的科研和教学成果。在概率论、抽样理论和数理统计这三个具有传统优势和创新能力的主要研究领域,成果尤为显著。
为适应新时期学科建设的需要,近年来,我们的研究不断与国际前沿领域结合,与国际多所知名院校形成合作研究,主要研究方向包括随机分析、高频数据、高维数据模型、数据密集型计算、统计学习、数理统计管理、复杂抽样理论及应用、空间统计学等。
具备哪些特质的学生更适合学习统计学专业?
对统计学有浓厚兴趣,具有科学探索精神,热爱读书,喜欢写作,学习高效自律,专心致志,乐于解题,有丰富的想象力,可内生自信心,科学好奇心,勇于探索新知识,不惧挑战和顽强的意志力,有对他人、对社会和对自然的爱心和强烈的责任感,数学基础扎实,立志统计学科研与应用的学生。
在统计学专业学习过程中,可能遇到什么困难?
统计学的高年级课程对学生课程参与度的要求很高,知识面也很广,学习起来比较困难,并不是埋头苦学和一味做习题就可以的,需要克服唯分数的不良学习动机,提高自主学习意识,提升发现问题的能力,并在团队中锻炼思维表达能力,克服急功近利,无体系学习或无计划的被动放松,尽快成长为数据分析复合型人才。
社会上对统计学专业存在哪些理解误区?
社会上有人误认为统计学专业就是数学中的概率和统计问题,实际上数学是统计学的研究工具,统计学是理解不确定问题的概念、理论和方法。
现实中哪些问题需要统计学专业人才来解决?
为国家提供高层次统计学与数据科学人才支撑,契合当地社会与经济发展数据研究人才需要。
统计学专业毕业生主要在哪些行业就业?
统计学专业毕业生主要在金融企业、政府机关和信息技术和软件行业。
统计学专业出国率和保研率如何?
统计学专业出国率40%左右,保研率25%左右。
统计学院有哪些分流专业
我院统计学专业是国家级特色专业,自2013级开始,我院在本科阶段设有统计学、应用统计学和经济统计学三个专业,2017年增设数据科学与大数据技术专业,其中统计学、应用统计学、数据科学与大数据技术三个专业授予理学学位,经济统计学专业授予经济学学位。
学长学姐感言
统计学专业的发展有目共睹——当年大多数同学是被调剂才来到这个专业,到现在成为人大最热门的专业之一,从今天的就业前景上就可见一斑。而对我个人来说,毕业后十余年在市场研究行业中的从业经历,令我深刻感受到的是统计学专业为我事业发展所奠定的坚实基础——既是初入市场研究行业的敲门砖,也是在这一专业行业里不断精进的有力工具,更是在我选择创业后体现出强大的优势。感谢院里的老师和同学们始终的大力支持,不只是帮助到我的创业,也帮助到市场研究这一行业的发展。
——王维敏(1996级本科生,2000级硕士生,WITOP Research创始人)
在我看来,统计学科是目前最有发展潜力、最有积极意义的学科之一。随着大数据时代的到来,几乎各个行业都开始在统计领域中进行探索,统计人才在无论各处都大有用武之地。同时,统计也最令人着迷——它是人与自然的和谐共处,是科学与艺术的完美结合。不管你是否关注学科排名,人大统计全国领先的数字就在那里,不来不去;不管你是否对学好统计存有信心,人大统计优秀的教研团队就在那里,不离不弃!我们的统计学院不仅注重科学地构架学科体系,而且注重夯实基础理论知识,同时又能够培养学生的应用能力和创新意识,比如我们有探究性教学的成功
实践、有数据挖掘小组的多彩活动。同时,我们院的几乎每一位老师都是那么的勤奋、质朴、平易近人。站在大学的终点,我很想由衷地感叹:我为我是人大的统计人而感到自豪!
——王可(2013级本科生)
师资力量和教学水平自不必说,人大统院绝对是全国数一数二的。更为可贵的是,我们统院有一种独特而包容的良好风气,因为统计本身是一门处于数学、经济学和计算机科学交叉点上的新兴学科,既有理工学科的严谨认真,又有人文学科的活跃感性,再加上人大本身是一所综合性大学,这才形成统院兼容并包的好风气。既有美赛特奖的学霸、建模炒股的大神,也有才华横溢的文艺范、字字珠玑的小清新,每个人的特长和爱好都能在这里有所展现,彼此和谐,这大概就是统院最令我怀念的独特的魅力吧。
——王业隆(2013级本科生)
不敢用简短的话语概括统计学这个学科是什么,我想说说它让我受益的功用和思想上的启迪。当下是一个信息不断增长,几乎每时每刻都需要做决策的时代,而统计学能够度量信息与决策之间的可靠性,并且用”大白话”——数字的方式告诉我;统计学每一个统计量的构造都为我开启审视信息的新视角,提供思考问题的新思路,学科的厚重积淀让同一问题的多种思考方法不断冲击你的思维边限。
——黄海(2014级本科生)
在我的眼中,统计学是一门不精确的完美艺术。在充满未知与不确定性的世界,它可以带领人们透过纷杂的数字发现规律,获得新知。
统计的魅力在于其创造性与实践性。它同艺术一般需要人们创造性的设计,为每一份数据量身定做解决方案,也正因如此,统计学包含着无尽的探索乐趣;与此同时,统计的应用极广,金融生物等领域都看得到统计的身影,它从理论上对于生活中的现象给予解释,为各种应用给予数量化支持。
信息技术的飞速发展也为统计提供了更广阔的舞台。统计这门相对年轻的学科,充满了活力,令人着迷。
——王明辉(2014级本科生)
选自《你的专业——中国人民大学本科专业介绍》
排版美编:戴蕾