2019 年 8 月,北京智源人工智能研究院联合中科院计算所、数据评测平台 biendata,共同发布了中文多模态虚假新闻数据集,并同步开放了评测竞赛(2019 年 8 月-11 月初),总奖金 10 万元。本次比赛在文本模态之外,重点关注视觉模态在虚假新闻检测中的应用。为使参赛选手充分了解已有工作,主办方特别撰写了进展介绍,总结在虚假新闻检测中,视觉模态的作用和利用方法。
比赛链接:
https://biendata.com/competition/falsenews/微博、Tiwtter 等社交平台的兴起为用户带来便捷的同时也为虚假新闻的滋生与传播提供了土壤。虚假新闻的疯狂传播已经带来了诸多消极影响。据统计,在 2016 年美国总统大选前一个月,平均每个选民曾接触过 1-3 条政治类假新闻,这些假新闻不可避免地影响了选举过程公平公正的进行。与此同时,随着多媒体技术的发展,无论自媒体还是专业媒体都开始向基于图、文、短视频的多媒体新闻形式转变。多媒体内容承载着更加丰富与直观的信息,能够更好地描述新闻事件,且更易广泛传播。研究表明,带图片新闻的平均转发次数是纯文本新闻的 11 倍。正因如此,虚假新闻经常使用极具煽动性的图片来吸引和误导读者,从而快速且广泛地传播,这使得对视觉模态内容的检测已经成为应对虚假新闻挑战的不容忽视的一部分。本文将介绍视觉模态在虚假新闻检测中的应用进展。首先本文分析了现存的虚假新闻配图的类别,之后从统计、取证、语义三个方面介绍了有助于检测的特征,并介绍了融合多种视觉模态的方法 MVNN。此外,我们还介绍了三种多模态检测方法,以充分展示如何将视觉信息与文本信息结合,以应对虚假新闻检测的挑战。
问题分类
▲ 图片篡改
▲ 图片过时
在实际使用中,我们无法预先得知虚假新闻配图属于上述哪种类型。因此,虚假新闻检测的一大难题就在于寻找通用性好的特征组合和设计能应对多种情况的模型。
视觉特征
针对虚假新闻图片的特点,基于视觉模态内容进行虚假新闻检测的工作主要利用了以下三类特征:统计特征、取证特征以及语义特征。
统计特征
Jin [1] 等人发现虚假新闻的配图从统计特征上来看与真实新闻存在一定差异。比如,受限于图片来源,虚假新闻往往是少数几张虚假图片在进行着重复传播,而真实新闻由于素材来源丰富,其配图往往具有很强的多样性。下图中,图 (a) 是真新闻配图,图 (b) 是假新闻配图。可以看出,相较于假新闻配图,真新闻配图的多样性更强。
▲ 真实新闻事件与虚假新闻事件配图多样性的差异
除图片多样性外,新闻中配图的图片数目、包含热门图片的新闻比例、特殊图片(如长图、聊天截图等)所占比例等也经常用作检测的统计特征。另外,一些更高层次的统计特征在虚假新闻检测中也发挥着重要的作用 [1,2,3]:
视觉清晰度(Visiual Clarity Score, VCS):VCS 被用来衡量来自两个集合的图片差异,其中一个集合图片来自某一特定事件,而另一集合是训练集中所有事件的配图。通过使用 K-L 散度度量两个集合的分布差异,我们可以得出该事件的图片分布是否具有特异性。
视觉一致度(Visiual Coherence Score, VCoS):通过计算图片两两之间的相似度,VCoS 衡量了同一事件中的图片的一致性。
视觉相似度直方图(Visual Similarity Distribution Histogram, VSDH):VSDH 将图像相似度矩阵化为直方图,精细地度量同一事件中图像的一致程度。
视觉多样度(Visiual Diversity Score, VDS):VDS 用来度量事件中图像在视觉上的多样性程度。
视觉聚类度(Visiual Clustering Score, VCS):VCS 从图像聚类的角度来度量新闻图片的分布,它统计的是一个事件中图像经过层次聚类后的簇数目。
取证特征
查证一条多媒体新闻真实性最直接的方式就是验证其中视觉信息的真实性:如果新闻中的视频或图像经历过篡改、多次压缩等操作,或者它们本身就是由某些深度学习手段生成的,那这则新闻就很可能是捏造的。通过分析图片是否存在篡改、多重压缩或是否为生成得到,我们可以判断其本身的可信度。在取证特征中,又包含篡改、生成和重压缩特征三类:
篡改检测
假新闻制造者常常对发生在其他新闻中的配图进行拼接、复制-粘贴或移除等操作来伪造成另一新闻事件配图,高超的 PS 手段使得很多读者难以辨别图片的真伪。现有的图像篡改检测的方式主要包括基于手工特征和深度学习特征的两种检测方法:手工特征:基于手工特征的篡改检测方法大多基于篡改图像底层特征的分析,这些底层特征包括双重 JPEG 压缩痕迹、CFA 色彩矩阵特征和局部噪声特征等。基于双重 JPEG 压缩痕迹的方法通过预测 DCT 系数和量化因子的概率模型,可以发现篡改和未篡改区域压缩程度的差异。基于 CFA 的方法则根据篡改与未篡改区域来自不同的相机的假设,通过分析不同区域存在的不同相机的滤波阵列的统计特性来定位篡改区域。基于局部噪声特征的方法,如隐写丰富模型(Spatial Rich Model,SRM)[4] 等,通过捕捉篡改区域和未篡改区域邻接像素的噪声特征的不连续性定位篡改区域。深度学习特征:基于手工特征的检测方法大多只能检测特定类型的篡改,近年来用深度学习的方法来解决通用篡改检测的问题。Cozzolino [5] 等人将 SRM 特征与卷积神经网络融合,进一步发掘了局部噪声特征在篡改检测上的作用,他们也尝试将图像篡改任务看作异常检测任务,用基于自编码器的方法将编码器难以重建的部分定位为篡改区域,实现了无监督的篡改检测 [6]。除此之外,Peng [7] 等人提出了一个双流篡改检测模型,该模型从 RGB 流和噪声流提取到了丰富的篡改特征的表达,实现了拼接、复制-粘贴和局部去除多种图像篡改类型的检测。
生成检测
随着深度生成网络的发展,人们可以生成更加逼真的图像与视频,一些图片甚至达到了肉眼都难以辨认的程度,这为检测这些虚假图片带来了极大的挑战。尽管现有的生成图像已经到了以假乱真的程度,但在一些特征中仍与真实图片之间存在差异,现有方法主要从信号层的特征来进行检测:
- Co-occurrence Matrix [8]:Co-occurrence Matrix 可以捕捉图片空间上的一致性特征。Nataraj 等人从像素域提取图片三通道的 Co-occurrence 矩阵,并利用 CNN 网络来识别生成图片在 Co-occurrence 矩阵中的模式特征。
- Intensity Noise Histogram [9]:Scott 等人发现由 GAN 生成的图片在三通道光谱响应上比真实图片存在更多的重叠部分,即生成图片在 RGB 通道中存在着某种相关性。从这一发现出发,Scott 等人使用 Intensity Noise Histogram 特征来捕获像素级别的统计相关性。
- Saturation [9]:由相机拍摄而成的图片的饱和度不会出现负值,但由 GAN 生成的图片往往没有这一约束。因此,饱和度中极端值的分布比例可以作为一项特征来检测图片是否被生成。
虚假新闻中往往存在经历过多次压缩的低质量新闻配图,其主要来源有两方面:1)图像被篡改后重新保存引起的重压缩和 2)图像在社交媒体上被反复上传和下载,由平台完成的重压缩。
考虑到假新闻常采用篡改图片或过时图片作为配图,假新闻配图往往比真实新闻配图的的压缩程度更高,因此我们可以通过分析图像的重压缩特征来检测虚假新闻。现有的重压缩检测方法主要从图像的频率域和像素域提取特征 [10]:
频率域:多重压缩操作会改变图像在离散余弦变换(DiscreteCosine Transform,DCT)域的统计特性,Chen 等人 [10] 通过比较经过一次压缩和多次压缩图像的 DCT 系数直方图的傅立叶变换幅度谱发现,多次压缩图像的 DCT 系数直方图幅度谱的周期脉冲幅度相比一次压缩的幅度谱具有更多的变化。
像素域:多重压缩操作也会在像素域上导致图像清晰度下降、产生块状效应和引入噪声等。通过对这些现象进行特征的提取和量化,我们可以衡量图像压缩的程度。
语义特征
为吸引读者眼球,达到快速广泛传播的目的,虚假新闻的配图通常具有强烈的视觉冲击性 [11] 和情感煽动性 [12,13],借此来吸引读者,引发读者情感共鸣,进而影响读者的判断。这些特征在图像内容上表现为暴力、恐怖、色情等冲击性强的内容,在风格上表现为蕴含情感强烈,如下图所示:
▲ 在语义层面上,虚假新闻配图通常更具有视觉冲击性(a)(c),和强烈的情感性(b)
CNN 在捕获图像语义特征上具有很强的能力。在虚假新闻图片检测中,最常使用 CNN 网络是 VGG。以往工作中会直接使用预训练模型,并使用分类前的最后一层特征作为图片的语义表示。除此以外,还有一些工作对基本的 CNN 结构进行了改进,如 [17] 中作者使用了多分支的 CNN-RNN 网络,希望同时捕捉低层与高层语义特征。
视觉特征融合方法
Qi 等人 [17] 发现虚假新闻图片不仅包含被恶意篡改的图片,也包含被错误的用来表示不相关事件的真实图片。然而现有的方法往往只适用于某一类型的虚假新闻图片,难以捕捉到虚假新闻图片整体的特征,从这一发现出发,Qi 等人设计了一个同时关注图像的频域与像素域的图像特征建模方法 MVNN 来深入挖掘图片在频域及像素域上潜在的视觉模式并进行高效表达和融合。
该模型主要分为三部分:取证信息抽取、语义信息抽取与信息融合。 1. 在取证信息抽取部分,因为经过重压缩或篡改之后的图像在频域上往往呈现出周期性的特点,因此该模型抽取出图片的频域信息并使用 CNN 网络来捕捉这种特征。2. 在语义信息抽取部分,该模型设计了一个多分支的 CNN-RNN 网络来捕捉虚假新闻图片在不同语义层次上的特点,具体来说,CNN 通过局部到全局的逐层抽象来学习高级的语义表示,而视觉语义中的视觉冲击与煽动性的风格特征与从低级到高级的许多视觉因素有关,因此在该部分中增加双向门控网络(BiGRU)来建模这些不同层级的语义特征之间的时序依赖关系。3. 在信息融合部分,因为图片的物理和语义特征在检测虚假新闻时是互补的,但在不同的新闻中其发挥的作用各有侧重。例如在篡改图片中,频域的特征相比像素域的语义特征更加重要。因此在该模型中使用注意力机制来控制这些特征的重要性,并使用加权后的特征向量来完成虚假新闻的检测。
多模态检测方法
一篇社交媒体新闻往往同时包含文本和视觉内容,两者提供了各有侧重、相互补充的信息。因此,在虚假新闻检测中,有必要使用多模态检测方法,同时利用文本和视觉莫泰信息来判别新闻的真实性。在现有工作中,具有代表性的包括 attRNN、EANN 和 MVAE。Jin 等人 [14] 第一次通过深度神经网络的方法将多模态信息引入到虚假新闻检测中,他们提出了一种带注意力机制的循环神经网络(attRNN)来融合文本模态与视觉模态的信息。
该模型通过两个部分提取各自模态的信息:一部分通过 VGG-19 抽取图像的语义特征,另一部分利用 Attention 机制抽取出文本与社交上下文中的关键信息。为了达到引导 VGG-19 网络抽取与事件相关语义特征的目的,文本和社交上下文中的关键信息与图片语义特征进行了逐元素相乘,以调整视觉语义信息的权重。实验表明,该方法可以发现许多单一模态难以判别的虚假新闻案例。
▲ 被attRNN捕捉,但被仅使用文本的RNN忽略的虚假新闻案例
Wang 等人 [15] 提出了一种基于对抗网络的端到端模型,其主要出发点是,当前的许多模型学习到的是事件相关的特征,这些特征难以迁移到新型事件(newly emerged events)中去,会降低模型的泛化能力,因此 Wang 等人认为应当引导模型学习更具泛化能力的事件无关特征。
▲ EANN模型图 [15]
在该模型中,利用 TextCNN 抽取文本模态特征,利用 VGG-19 抽取视觉模态语义特征,并将两种模态特征拼接作为虚假新闻的内容特征表达。该特征一方面用来判断该新闻是否为虚假新闻,另一方面用来判断该新闻来自于哪一事件模型。该模型有两个目标,一方面要使虚假新闻的检测结果要尽可能准,另一方面要使得事件判别器要尽可能的不准(对抗部分),以保证所学到的特征是事件无关的。
Dhruv 等人 [16] 认为文本模态特征与视觉模态特征的简单拼接难以充分表达两个模态之间的交互与关联,因此 Dhruv 等人使用了编码-解码的方式来构建多模态的特征表达。在该模型中,文本模态与视觉模态的拼接特征被编码为一个中间表达,利用重构损失保证编码后的中间表达可以解码回原状态,并用该中间表达的向量做虚假新闻检测。
▲ MVAE模型图 [16]
总结
本文介绍了视觉模态在虚假新闻检测中的作用与现有研究工作,这些工作从统计特征、手工特征与深度学习等方法出发设计了不同的利用视觉模态的虚假新闻检测方法,并取得了良好的效果。
然而当前该问题仍面临两大挑战:高质量标注的多模态虚假新闻数据仍然处于稀缺状态,研究者除了构建更大规模的数据集外,也应当关注如何将无监督、半监督方法应用到虚假新闻检测中;现有工作仅对新闻做出真/假的判别,忽略了结果的可解释性,使得人类对技术缺乏足够的信任度。
比赛链接:
https://biendata.com/competition/falsenews/
参考文献
[1] Zhiwei Jin, Juan Cao, Yongdong Zhang, Jianshe Zhou, and Qi Tian. Novel visual and statistical image features for microblogs news verification. IEEE Transactions on Multimedia, 19(3):598–608, 2017. [2] Ke Wu, Song Yang, and Kenny Q Zhu. False rumors detection on sina weibo by propagation structures. In 2015 IEEE 31st International Conference on Data Engineering, pages 651–662. IEEE, 2015. [3] Fan Yang, Yang Liu, Xiaohui Yu, and Min Yang. Automatic detection of rumor on sina weibo. In Proceedings of the ACM SIGKDD Workshop on Mining Data Semantics, page 13. ACM, 2012. [4] Fridrich J, Kodovsky J. Rich models for steganalysis of digital images[J]. IEEE Transactions on Information Forensics and Security, 2012, 7(3) : 868 – 882. [5] Cozzolino D, Poggi G, Verdoliva L. Splicebuster: A new blind image splicing de- tector[C]. 2015 IEEE International Workshop on Information Forensics and Security (WIFS). 2015 : 1 – 6. [6] Cozzolino D, Verdoliva L. Single-image splicing localization through autoencoder- based anomaly detection[C]. WIFS. 2016. [7] Salloum R, Ren Y, Kuo C-C J. Image splicing localization using a multi-task fully convolutional network (MFCN)[J]. Journal of Visual Communication and Image Representation, 2018, 51 : 201 – 208 [8] Lakshmanan Nataraj, Tajuddin Manhar Mohammed, BS Manjunath, Shivkumar Chandrasekaran, Arjuna Flenner, Jawadul H Bappy, and Amit K Roy-Chowdhury. Detecting gan generated fake images using co-occurrence matrices. arXiv preprint arXiv:1903.06836, 2019. [9] Scott McCloskey and Michael Albright. Detecting gan-generated imagery using color cues. arXiv preprint arXiv:1812.08247, 2018. [10] Chen Y L, Hsu C T. Detecting Recompression of JPEG Images via Periodicity Anal- ysis of Compression Artifacts for Tampering Detection[J]. IEEE Transactions on Information Forensics and Security, 2011, 6(2) : 396 – 406 [11] Zhiwei Jin, Juan Cao, Jiebo Luo, and Yongdong Zhang. Image credibility analysis with effective domain transferred deep networks. arXiv preprint arXiv:1611.05328, 2016. [12] Kai Shu, Amy Sliva, Suhang Wang, Jiliang Tang, and Huan Liu. Fake news detection on social media: A data mining perspective. ACM SIGKDD Explorations Newsletter, 19(1):22–36, 2017. [13] Cass R Sunstein. On rumors. How falsehoods spread, why we believe them, what can be done. Farrar, Straus and Giroux, 2009. [14] Zhiwei Jin, Juan Cao, Han Guo, Yongdong Zhang, and Jiebo Luo. Multimodal fusion with recurrent neural networks for rumor detection on microblogs. In Proceedings of the 2017 ACM on Multimedia Conference, pages 795–816. ACM, 2017. [15] Yaqing Wang, Fenglong Ma, Zhiwei Jin, Ye Yuan, Guangxu Xun, Kishlay Jha, Lu Su, and Jing Gao. Eann: Event adversarial neural networks for multi-modal fake news detection. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pages 849–857. ACM, 2018. [16] Khattar Dhruv, Goud Jaipal Singh, Gupta Manish, and Varma Vasudeva. Mvae: Multimodal variational autoencoder for fake news detection. In Proceedings of the 2019 World Wide Web Conference. ACM, 2019. [17] Peng Qi, Juan Cao, Tianyun Yang, Junbo Guo, and Jintao Li. Exploiting multidomain visual information for fake news detection. In 19th IEEE International Conference on Data Mining. IEEE, 2019.智源研究院后续更多竞赛与活动,请关注研究院公众号(baaibjkw,二维码见下),以及大赛首页(biendata.com/baai)。
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
▽ 点击 | 阅读原文 | 报名参赛