查看原文
其他

第4.1 节 模型的改善与泛化(基本概念)

空字符 月来客栈 2024-01-19

各位朋友大家好,欢迎来到月来客栈,我是掌柜空字符。

本期推送内容目录如下,如果你觉得本期内容对你所有帮助欢迎点个赞、关个注、下回更新不迷路。

  • 4.1 基本概念
    • 4.1.1 机器学习概念
    • 4.1.2 机器学习分类
    • 4.1.3 机器学习与人工智能
    • 4.1.4 小结

经过前面两章内容的学习,我们已经完成了对线性回归和逻辑回归核心内容的学习,但是一些涉及模型改善(Optimization)与泛化(Generalization)的内容并没有进行介绍。在第4章中,笔者将以线性回归和逻辑回归为例(同样可以运用到后续介绍的其他算法模型中),介绍一些机器学习中常用的模型和数据处理的技巧,以及尽可能地说清楚为什么要这么做的原因。由于这部分的内容略微有点杂乱,所以笔者将按照如图4-1所示的顺序来递进地进行介绍,同时再辅以示例进行说明。不过在正式开始继续介绍后续内容之前,我们先来看一看机器学习中的几个基本概念。

图 4-1 学习路线图

4.1 基本概念

在经过前面两章内容的介绍后,相信读者对于机器学习这个概念已经有了一定感官上的认识。不过到底什么是机器学习呢?机器学习又有哪些类别呢?

4.1.1 机器学习概念

关于到底什么是机器学习(Machine Learning),可能不同的人会有不同的理解,自然也就产生了不同的定义。下面笔者主要介绍一下计算领域内两位大师对于什么是机器学习所给出的定义。

第一位是人工智能先驱亚瑟·塞缪尔(Arthur Samuel),他在1959年创造了“机器学习”一词 [1]。塞缪尔认为,所谓机器学习是指:计算机能够具备根据现有数据构建一套不需要进行显式编程的算法模型来对新数据进行预测的能力。这里所谓不需要进行显式编程是区别于传统程序算法需要人为指定程序的执行过程。

Field of study that gives computers the ability to learn without being explicitly programmed

第二位是卡内基梅隆大学的计算机科学家汤姆·迈克尔·米切尔(Tom Michael Mitchell),他给出了一个相较于塞缪尔更加正式与学术的定义。米切尔认为,如果计算机程序能够在任务T中学得经验E,并且通过指标P进行评价,同时根据经验E还能够提升程序在任务T的评价指标P,这就是机器学习[2]。这段话对于初学者来讲稍微有点拗口,其实际想要表达的就是,如果一个计算机程序能够自己根据数据样本学习,以此获得经验并逐步提高最终的表现结果,则这个过程就被称为机器学习。

A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

可以看出,两位大师虽然在对机器学习进行定义时用了不同的语言进行描述,但是从本质上来讲他们说的都是一回事,即能让计算机根据现有的数据样本自己“学”出一套规则来的过程。

4.1.2 机器学习分类

1. 有监督学习

有监督学习(Supervised Learning)也叫作有指导学习,它是指模型在训练过程中需要通过真实值来对训练过程进行指导的学习过程。在有监督模型的训练过程中,每次输入模型的都是形如这样的样本对,而模型最终学到的就是从输入到输出这样的映射关系。例如在前面两章中介绍的线性回归和逻辑回归,以及后面会陆续介绍的K近邻、朴素贝叶斯、决策树和支持向量机等都是典型的有监督学习模型,因为这些模型在训练过程中都需要通过真实值来指导模型进行学习。

2. 无监督学习

无监督学习(Unsupervised Learning)也叫作无指导学习,它是指模型在训练过程中不需要通过真实值来对训练过程进行指导的学习过程。在无监督模型的训练过程中,模型仅仅需要输入特征变量便可以进行学习,而模型最终学到的就是输入特征中所潜在的某种模式(Pattern)。例如在第10章中将要介绍的聚类算法就是一类典型的无监督学习模型。


3. 半监督学习

所谓半监督学习(Semi-supervised Learning )它是指介于有监督学习和无监督学习之间的一种机器学习方法。在半监督学习中,模型首先会通过少量的有标签数据来训练一个简单的模型并对无标签的数据进行预测;然后再通过某种策略来对预测出的样本进行筛选并将置信度较高的样本扩充到有标签的数据集中;接着再以整个扩充后的有标签数据来训练新的模型,并以同样的方式进行迭代;最后在满足某种条件下停止并得到训练好的模型。例如在第12章中将要介绍的Self-training和Label-Propagation等都属于这类半监督学习方法。

继续滑动看下一个

第4.1 节 模型的改善与泛化(基本概念)

空字符 月来客栈
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存