查看原文
其他

【他山之石】图像篡改数据集汇总及下载

“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注。

作者:知乎—魂牵梦梦随魂

地址:https://www.zhihu.com/people/hun-qian-meng-meng-sui-hun

毕设是图像篡改检测方向,目前已经接近尾声。整理代码的时候也顺便整理了一下手头的数据集,在这里小结一下,送给有需要的朋友。

01

CasiaV1.0/2.0
包含了两种篡改:copy-move和splice,具体的数据集指标说明见此篇:《Casia image tampering detection evaluation database》
论文地址:
https://ieeexplore.ieee.org/document/6625374
V1.0+V2.0篡改图片应该是9k张左右,由于两个版本数据集样本数量差距还蛮大的,很多论文在模型评测时使用V2.0做迁移,V1.0做测试。但仅是迁移阶段用于评测而已,具体模型训练我认为还是需要更大样本数量的篡改训练集。
下载地址:
https://github.com/namtpham/casia1groundtruth
https://github.com/namtpham/casia2groundtruth


02

Columbia Uncompressed Image Splicing Detection
看名字也知道这数据集是splice篡改,数据集较小,有183张篡改图片,图片分辨率高。具体数据集指标见此网址:
https://www.ee.columbia.edu/ln/dvmm/downloads/authsplcuncmp/
下载地址:
https://www.dropbox.com/sh/786qv3yhvc7s9ki/AACbEEzGPrD3_y38bpWHzgdqa?dl=0

03

Pawel korus-Realistic Tampering Dataset
这是一个手工篡改数据集,做的还是非常走心的,和上面俩数据集相比,至少有的图片我肉眼真看不出来是p的......图片分辨率很高,都是1920 x 1080未压缩图片。缺点是数量太少了,只有220张,只能做模型测试了。包含object-insertion和removal两种篡改。
数据集具体指标和下载地址:https://pkorus.pl/downloads

04

Coverage
copy-move篡改数据集。100对篡改图片及原图。分辨率一般般。
数据集具体指标见此网址:
https://stefan.winklerbros.net/Publications/icip2016b.pdf
下载地址:
https://onedrive.live.com/?authkey=%21ADJSupKlX%5FIj8Yc&id=4B518F0277851508%21709&cid=4B518F0277851508

05

NIST16
这个数据集个人感觉做的也很走心,跟上面提到的Pawel korus-Realistic Tampering Dataset手工数据集质量差不多,有的图肉眼看也看不太出来篡改过。图片分辨率高,有splice、remove、copy-move三种篡改,不到1k张样本。
数据集获取:
在OpenMFC20网站注册账号,网址如下:
https://mfc.nist.gov/users/sign_in
按照流程完善信息,可能要提交license(数据集分开源的和非开源,NIST16是开源的,不记得需要不要提交license了),就可以下载NIST16了。

06

自制篡改数据集
最先看到给出自制篡改数据集的制作方法是从rgb-net那篇论文(不知道是不是首创,反正我是先看到那篇的)【CVPR 2018】Learning Rich Features for Image Manipulation Detection,论文链接:
https://openaccess.thecvf.com/content_cvpr_2018/papers/Zhou_Learning_Rich_Features_CVPR_2018_paper.pdf
后面陆续看到的几篇论文也使用了相同的制作方法:基本思路就是基于MS COCO数据集标注+OpenCV实现篡改功能。
篡改数据集的具体实现建议去学习一下上面提到的Learning Rich Features论文的github源码,生成数据集的代码写的很清晰,对自制篡改数据集很有启发性:
https://github.com/pengzhou1108/RGB-N
我自己按照他的方法生成了50k张样本数据集,用于训练很够了。我自己按照他的方法生成了50k张样本数据集,用于训练很够了。
目前用到的数据集大概就这么多吧,有急需但是下载遇到问题的朋友可以私信我,但尽量先尝试自己下载吧。

本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。


“他山之石”历史文章


更多他山之石专栏文章,

请点击文章底部“阅读原文”查看



分享、点赞、在看,给个三连击呗!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存