查看原文
其他

《机器学习》入门的26个概念。笔记1

2017-04-01 shadow 科技Mix设计Lab

最近在读周志华老师的《机器学习》。


一开篇就理清了基本的概念,比如数据集、示例、样本、属性、学习、训练、预测、标记、分类、回归等等让初学者头晕等概念。


我把这些概念摘录了下:


1、数据集(data set)

一组记录的集合称为data set


{色泽=青绿;根蒂=蜷缩;敲声=浊响},{色泽=乌黑;根蒂=稍蜷;敲声=沉闷},{色泽=浅白;根蒂=硬挺;敲声=清脆},……,


2、示例(instance)或样本(sample)、特征向量(feature vector)

每条记录称为一个instance或sample;

对应于样本空间(feature space),每条记录也称为feature vector。


{色泽=青绿;根蒂=蜷缩;敲声=浊响}


3、属性(attribute)或特征(feature)

反映事件或对象在某方面的表现或特质的事项,称为attribute或feature


色泽


4、属性值(attribute value)

属性的取值,称为attribute value


青绿


5、属性空间(attribute space)或样本空间(sample space)、输入空间

属性构成的空间,称为attribute space

把色泽、根蒂、敲声作为三个坐标轴,则它们构成一个用于描述西瓜的三维空间——属性空间


6、维数(dimensionality)

上述例子维数为3.


7、学习(learning)或训练(training)

从数据中学得模型的过程称为learning

这个过程通过执行某个学习算法来完成。


8、训练数据(training data)、训练集(training set)

训练过程中所用的数据称training data,

组成的集合称为training set,对应于data set,


9、训练样本(training sample)、训练示例(training instance)或训练例

对应于data set的sample


10、假设(hypothesis)

学得模型对应了关于数据的某种潜在的规律,称为hypohtesis


11、真相或真实(ground-truth)

潜在规律自身,称为ground-truth


12、学习过程就是为了找出或逼近真相。


13、预测(prediction)

仅有示例数据是不够的,要建立预测模型,我们需要获得训练样本的“结果”信息,

((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜)

好瓜,称为标记(label)


14、样例(example)

拥有了标记信息的示例,称为example


15、标记空间(label space)或输出空间


16、分类(classification)

我们欲预测的是离散值,例如“好瓜”,“坏瓜”,这种学习任务称为classification


17、回归(regression)

预测的为连续值,例如西瓜的成熟度0.95,0.37,0.56


18、二分类(binary classification)

只有2个类别的分类。

正类(positive class)、反类(negative class)(负类)


19、多分类(multi-class classification)


20、测试(testiing)

学得模型后,使用其进行预测的过程,称为testing


21、测试样本(testing sample)、测试示例(testing instance)或测试例


22、聚类(clustering)

将训练集中的西瓜分成若干组,每组称为一个“簇”(cluster);

这些自动形成的簇可能对应一些潜在的概念划分,如浅色瓜、深色瓜、甚至本地瓜、外地瓜。


23、监督学习(supervised learning)和无监督学习(unsupervised learning)

classification与regression是supervised learning的代表;clustering是unsupervised learning的代表;


24、泛化(generalization)

学得模型适用于新样本的能力,称为generalization能力。


25、归纳(induction)与演绎(deduction)

从特殊到一般的泛化过程,即为归纳;

从一般到特殊的特化(specialization),即为演绎。

从样本中学习,称为归纳学习(inductive learning)


26、概念(concept)

广义的归纳学习相当于从样例中学习,狭义的归纳学习则要求从训练数据中学得概念(concept),因而称为概念学习或概念形成。

要学得泛化性能好且语义明确的概念实在太困难了,现实常用技术大多是产生“黑箱”模型。





欢迎长按二维码

关注本号

本号发布内容主要为设计&科技方面


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存