158万张图像的鉴黄数据集

机器学习算法与Python学习 2019-06-08

机器之心报道

如果你想训练一个内容审核系统过滤不合适的信息，或用 GAN 实现一些大胆的想法，那么数据集是必不可少的。但限制级图像很难收集，也很少会开源。在这个项目中，作者构建了一个大型高质量图像鉴黄数据集，它有超过 158 万张图像，共分为 159 个大类别，且每一个类别还有若干子类别。另外，今天发这篇文章和情人节完全无关，和你是不是单身狗完全无关，一切是为了探索机器学习的前沿……(笑眯眯手动摸狗头）。

项目地址：https://github.com/EBazarov/nsfw_data_source_urls

在这篇文章中，我们将介绍一个新的鉴黄图像开源项目，它的 158 万数据量足够训练一个大型分类模型或生成模型，而且充足的类别也提升了数据的质量。总体而言，我们会发现该项目的图像分类比较准确，至少我们采样的一些图像都属于 NSFW 和对应的类别。

整个项目和 nsfw_data_scrapper 项目一样提供对应的图像超链，不同类别及子类别都有对应的 TXT 文件，所有超链都储存在 TXT 文本中。如下所示为简单的数据示例，因为本文这个数据集尺度有点大，我们以 nsfw_data_scrapper 数据集为例：

数据集统计信息

raw_data 文件夹中可以找到不同类别及对应的 TXT 文本，以下是关于该数据集的一些统计信息：