查看原文
其他

20年前的吴恩达,藏在一个数据集里

关注前沿科技 量子位 2019-07-04
乾明 岳排槐 发自 凹非寺
量子位 出品 | 公众号 QbitAI

快看看这是谁?!

如果你真没认出来,那我们公布答案:

青涩の安德鲁。

今天这张照片火了。连正主吴恩达都在推特上转发了这张黑白照片。吴恩达回忆说,这张照片拍摄于大概20年前~

这其实不是一张普通的照片。

早在一个月前,一位研究机器学习和AI的教授Ricardo Araujo,在备课研究一个数据集时,发现了藏在数据集里的吴恩达照片。

这个数据集就是CMU Face Images。

诞生于1997年的这套数据集,其中包括640张人脸黑白照片,包括多个不同维度。吴恩达只是其中一个“模特”。

为了仔细观摩吴恩达在人工智能历史进程中的一点微小贡献,量子位赶紧下载了这个数据集,其中有上百张各种吴恩达的青涩照。

我们还做成了动图,一起来看下。

预备备,五、六、七,走……

普通的:

生气的(标注了angry,但看不太出来):

戴墨镜的:

1997年,吴恩达刚刚在CMU获得计算机学士学位。随后一年,他在MIT获得硕士学位。2002年,吴恩达在伯克利获得博士学位。

随后,吴恩达加入斯坦福大学,逐渐成为人工智能领域影响力最大的老师之一。2011年他加入Google,创办谷歌大脑和深度学习项目。2014年,他加入百度出任首席科学家。2017年,吴恩达离职创业。

数据集的贡献

虽然在现在看来,这个数据集有点“粗糙”,但在当时,已经是非常珍贵的一份机器学习资源了。

根据维基百科的介绍,这是最早能够应用到机器学习中的数据集之一。

这个数据集的作者,是CMU的教授Tom Mitchell,被誉为“机器学习教父”,李开复、陆奇都是他的学生。

在制作这份数据集的时候,他就已经是CMU的教授了。

数据集被制作出来的那一年,也就是1997年,他出版了一本教材,名字叫做《机器学习》(Machine Learning),被称为是机器学习领域的奠基之作、第一代机器学习的圣经、入门机器学习的必读教材之一。

这本书的中文版在2008年出版。

数据集,也自然被放到了其中,作为教材中的一个案例,供大家参考学习。

1999年,Mitchell成为 CMU 的 E. Fredkin 教授。2006年,在CMU计算机科学学院成立机器学习系,并担任系主任。

2009年,被授予CMU 的最高教职University Professor职位 ,2010年入选美国工程院院士,2016 年当选美国人文与科学院(AAAS)院士。

在计算机科学领域,Mitchell教授发表了130多篇论文,其中不乏《Science》、《Nature 》等世界顶级学术期刊。

2018年10月,Mitchell教授被任命为CMU计算机科学学院的临时院长。

此外,根据数据集介绍页面,这份数据集被两篇论文直接引用了,而且这两篇论文都非常厉害。

其中一篇论文,是在2000年发表的。作者之一就是吴恩达的导师,迈克尔·乔丹。

这篇论文,他们提出了在最大似然和贝叶斯框架下学习混合树模型的有效算法。并利用数据集进行了验证。

另外一篇论文,2003年被NIPS收录,正式发表于2004年,第一作者是前滴滴研究院院长、飞步科技的创始人何晓飞。

在这篇论文中,他们提出了保局投影(LPP)的算法,并利用数据集进行了证明。被引用了4000多次。这也是最早中标NIPS的中国籍学者论文。

但是,量子位仔细研究后发现,这两篇论文虽然使用了人脸数据,但跟这份数据集并没有关系……

不管怎样,当年打造这样的一份数据集,并不是一件容易的事情,也非常难得。

新·数据集

现在,随着技术的发展,以及人们收集数据的手段大幅度提高,现在的人脸识别数据集也变得更加完善。

其中一个比较有代表性的,是香港中文大学汤晓鸥团队在2016年开放的CalebA人脸数据集。

数据集中包含10,177个名人身份的202,599张人脸图片,规模是CMU1997年数据集的300多倍。

而且原来的图片,只是找学生拍了一些黑白的数据集,图片最大的也不过是128*120。现在这个数据集不仅都是名人图片,还配有“高清大图”。

而且,每张图片都做好了特征标记,包含人脸bbox标注框、5个人脸特征点坐标以及40个属性标记。

广泛适用于人脸属性标识训练、人脸检测训练以及landmark标记等与人脸相关的计算机视觉训练的各种任务。

数字化的你

在CMU Face Images这个数据集里,图片的存储格式为:.pgm

pgm是一个缩写,全称:Portable Gray Map。这是一种灰度图像格式,与常见的jpg格式相比,pgm不对数据进行压缩,因而体积较大。

 吴恩达图片实际很小

上面我们提到的各种吴恩达青涩照,最大分辨率是128×120,大小为43KB。如果存储为jpg格式,大小能缩小到4KB。

(上面的展示都是经过放大的版本。

由于不对数据进行压缩,pgm的图片格式非常直观,直接拖动一张这样的图片到浏览器里,你就能看到一个数字化的“吴恩达”。

就是这个样子:

后面还有很多很多数字。一直往下拉,感受是这个样子的。

里面的数值代表灰度。灰度的最大值是255。

其实,这就是计算机看图的方式。

上面提到的汤晓鸥老师,出版了一本《人工智能基础(高中版)》。书中有一小节,介绍了计算机眼中的图像。

如果将一幅图像放大,我们可以看到它是由一个个的小格子组成的,每个小格子是一个色块。如果我们用不同的数字来表示不同的颜色,图像就可以表示为一个由数字组成的矩形阵列,成为矩阵(matrix),这样就可以在计算机中存储。

彩色图像有三个通道。矩阵可以看作是高度为1的三阶张量,因此灰度图像只有一个通道。

那么计算机又怎么才能认出“吴恩达”以及他的表情呢?

也只在这本书里,简单介绍了如何利用卷积提取图像特征。我们也简单做个引用。

首先我们利用卷积运算从图像中提取出边缘特征,接下来,我们将图片划分成若干区域,并对边缘特征按照方向和幅度进行统计,并形成直方图。最后我们所有区域内的直方图拼接起来,就形成了特征向量。

就酱。

One More Thing

最后,再奉献一个动图:

周末快乐~

如果你对这个数据集感兴趣,在量子位公众号(ID:QbitAI)对话界面,回复:“青涩”两个字,就能获得下载地址。

年度评选申请

加入社群

量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

活动策划招聘

量子位正在招聘活动策划,将负责不同领域维度的线上线下相关活动策划、执行。欢迎聪明靠谱的小伙伴加入,并希望你能有一些活动策划或运营的相关经验。相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存