查看原文
其他

吴喜之教授直播课:机器学习入门

2018-01-30 学术志


“机器学习”,也许你刚听到这个词的时候,会有点蒙圈。首先它是英文名称Machine Learning(简称ML)的直译,在计算界Machine一般指计算机。其实它并不是神秘。机器学习是一门在统计学和计算机科学交叉点上茁壮成长起来的学科


套用一下大神们对机器学习的定义,机器学习研究的是计算机怎样模拟人类的学习行为,以获取新的知识或技能,并重新组织已有的知识结构使之不断改善自身。


但是我们不禁又想了计算机是死的,怎么可能像人类一样“学习”呢?


我们都知道,平时生活中,我们的计算机是指令式操作,也就是说,只要你给它输入相应的指令,它就会按照你的指令执行,非常准确。但是机器学习就不是这样,大家都知道,目前机器学习应用最广的领域是:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。这些领域都有一个相同点,那就是“数据”。


所以说,机器学习中,接受的不是指令而是数据,所以它不再一步一步按照原有的指令运行,而需要你用“思维”来主导程序的运行。其中重要的就是“统计”、“推理”、“逻辑”思维


从功能的角度分类,机器学习在一定量级的数据上,可以解决下列问题:


 1.  分类问题


根据数据样本上抽取出的特征,判定其属于有限个类别中的哪一个。比如:

垃圾邮件识别(结果类别:1、垃圾邮件 2、正常邮件)

文本情感褒贬分析(结果类别:1、褒 2、贬)

图像内容识别识别(结果类别:1、喵星人 2、汪星人 3、人类 4、草泥马 5、都不是)。


 2.  回归问题


根据数据样本上抽取出的特征,预测一个连续值的结果。比如:

电影票房

房价


 3.  聚类问题


根据数据样本上抽取出的特征,让样本抱抱团(相近/相关的样本在一团内)。比如:

新闻分类


近年来互联网数据大爆炸,数据的丰富度和覆盖面远远超出人工可以观察和总结的范畴,而机器学习的算法能指引计算机在海量数据中,挖掘出有用的价值,也使得无数学习者为之着迷。为此,我们特别邀请中国人民大学统计学院吴喜之教授为我们讲述“机器学习入门”。


吴喜之教授是我国著名的统计学家,退休前在中国人民大学统计学院任统计学教授。吴教授上世纪六十年代就读于北京大学数学力学系,八十年代出国深造,在美国北卡罗来纳大学获得统计学博士学位,是改革开放之后第一批留美并获得统计学博士学位的中国学者。多年来吴教授在国内外数十所高校讲授统计学课程,在国内统计学界享有盛誉。


早在十多年前,吴教授就第一个在国内大学统计学课堂引入 R 语言,培养了国内第一批 R 语言专家。如今他已古稀之年,仍然孜孜不倦的学习新方法、新工具,并且亲自编程实践,探索不辍。


在统计学家当中,他积极拥抱机器学习方法,并且撰写多部专著,致力于融合统计学和机器学习方法。另一方面,他对于机器学习,特别是数据性质和质量分析、回归与分类,复杂数据统计方法以及时间序列分析,有着统计学家特有的深刻思想和丰富实践,对于机器学习的实践者,是难得的明师。


☞注:本次直播提供十天回放


长按下方二维码识别报名

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存