查看原文
其他

取代MNIST?德国时尚圈的科学家们推出基准数据集,全是衣裤鞋包

2017-08-26 专注报道AI 量子位
李林 编译整理
量子位 报道 | 公众号 QbitAI

MNIST,是一个手写数字数据集,除了用在机器学习入门的教学中,它还是对机器学习算法进行基准测试的常用数据集。

但是,总有人觉得MNIST不够好,想要扩充、改进、替代它。

今天,德国研究机构Zalando Research在GitHub上发布了一个名叫Fashion-MNIST的数据集,其中训练集包含60000个样例,测试集包含10000个样例,分为10类。样例都来自日常穿着的衣裤鞋包,每一个都是28×28的灰度图像。

除了内容不一样,这个数据集的图片尺寸、训练/测试集划分、文件的存储结构,都和MNIST一模一样。

这个数据集虽然名字里带有“fashion”,内容也都是服饰,但它的目标用途和时尚毫无关系:它致力于成为MNIST的替代品,用作机器学习算法的基准测试。

 Fashion-MNIST(左)和原始MNIST(右)的t-SNE可视化展示

为什么要替代MNIST呢?

Zalando Research在这个数据集的说明中称,AI/机器学习/数据科学界的同学们搞出一个新算法之后,往往会先在MNIST上做基准测试,来验证这个算法。

于是,在这些群体之间流传着这样一种说法:如果一种算法连MNIST都搞不定,那它就是真没用;如果它能搞定MNIST,放到别的地方也不一定管用……

MNIST不好用,主要是因为它太简单了。甚至有人证明过,如果只是想区分开两个手写数字,很多时候识别一个像素就够了。

Google研究员、Keras作者François Chollet也曾经说,MNIST有很多问题,但其中最严重的一个,是它对于计算机视觉任务真的不具有代表性,做计算机视觉的算法,至少应该用CIFAR10这个复杂程度的数据集。

这次推出fashion-MNIST,想要取代MNIST的是德国研究机构Zalando Research,隶属于主营衣服鞋子的德国电商公司Zalando。

最后,如果你想试试这个fashion-MNIST数据集,请到https://github.com/zalandoresearch/fashion-mnist

加入社群

量子位AI社群7群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot2入群;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进群请加小助手微信号qbitbot2,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存