EMNLP 2017｜华盛顿大学：不同阴影下的真相：虚假新闻与政治事实审查中的语言分析

查看原文

其他

原创：热爱学习的读芯术 2019-05-05

你和“懂AI”之间，只差了一篇论文

很多读者给芯君后台留言，说看多了相对简单的AI科普和AI方法论，想看点有深度、有厚度、有眼界……以及重口味的专业论文。

为此，在多位AI领域的专家学者的帮助下，我们解读翻译了一组顶会论文。每一篇论文翻译校对完成，芯君和编辑部的老师们都会一起笑到崩溃，当然有的论文我们看得抱头痛哭。

同学们现在看不看得懂没关系，但芯君敢保证，你终有一天会因此爱上一个AI的新世界。

读芯术读者论文交流群，请加小编微信号：zhizhizhuji。等你。

这是读芯术解读的第77篇论文

EMNLP 2017 Regular Papers

不同阴影下的真相：虚假新闻与政治事实审查中的语言分析

Truth of Varying Shades: Analyzing Language in Fake News and Political Fact-Checking

华盛顿大学

University of Washington

【摘要】我们在政治事实检查和假新闻检测的背景下对新闻媒体的语言进行分析研究。我们将对带有讽刺，恶作剧和宣传的真实新闻语言进行比较，以发现不可靠文本的语言特征。为了探讨自动政治事实核查的可行性，我们还以PolitiFact.com为基础，以6分制的实际情况为依据提出了一个案例研究。实验表明，虽然媒体的事实核查仍然是一个开放的研究问题，文体线索仍旧可以帮助确定文本的真实性。

1 介绍

新闻媒体和政治话语在塑造人们的信仰和观点方面具有相当大的力量。因此，它们的真实性经常被认为是会带来最大程度的影响。最近这些虚假新闻引起了全世界的关注。2014年以来，单单为了进行事实核查而进行的有组织的努力的数量几乎变为了原来的三倍。像PolitiFact.com这样的组织就积极致力于调查和评价公众人物、记者、组织的评论的真实性。

图1 PolitiFact 对近乎错误和近乎正确的阐述的评级。误导的措辞-被标记为绿色-是导致被评级为中等的一个原因。

图1显示了由PolitiFact对真实性进行评级的示例引用。根据他们的分析，这两个陈述评级的一个组成部分是误导性的措词（在图中以绿色粗体显示）。例如，在第一个例子中，陈述是正确的，尽管只是因为说话者只是用量词来对冲他们的意思。在第二个例子中，两个相关的事件—— Brexit和Google的搜索趋势被模棱两可地呈现，就好像它们直接相关。

重要的是，像上面的例子一样，对PolitiFact的大多数事实陈述都被认为既不完全真实也不完全是虚假的。分析表明，虚假往往是由于短语的细微差异而不是完全捏造（Rubin等，2015）。与以前关于欺骗性文献的关于真相和欺骗的二元分类的工作相比，政治性的事实性检查提出了一个新的挑战，因为它涉及分级的真实性概念。

虽然政治事实检查一般侧重于检查引用公众人物的声明的准确性，但一般新闻报道的可靠性也是一个问题（Connolly et al.，2016; Perrott，2016）。图2说明了按照两个维度分类的新闻类型：作者的意图（欺骗倾向）和文章内容（真实，混合，错误）。

图2 基于目的倾向以及信息质量区分的不同类型的文章

在本文中，我们提出了一个分析研究，描绘了不同的意图和程度的真实的政治报价和新闻媒体的语言。我们还调查了分级欺骗检测，使用PolitiFact【为本文创建的所有资源包括来自不可靠源新文章的语料库、Politifact评级集合和编译Wiktionary词汇已经公开在homes.cs.washington.edu/˜hrashkin / factcheck.html】上提供的政治事实检查数据库来确定6分制的真实性。

2 虚假新闻分析

不同可靠性的新闻语料库 为了分析不同类型文章的语言模式，我们从英文Gigaword语料库中抽取标准可信新闻文章，并从七个不同类型的不可靠新闻网站上抓取文章。表1显示了根据“美国新闻与世界报道” 【详见www.usnews.com/news/national-news/articles/2016-11-14/avoid-these-fake-news-sites-at-all-costs】在每种类型下确定的来源。这些新闻类型包括：

讽刺：模仿真实的新闻，但仍然提示读者这并不意味着被认真对待
骗局：让读者相信偏执的故事是真实的
宣传：误导读者去相信一个特定的政治/社会议程

与恶作剧和宣传不同，讽刺意图与真实新闻显着不同，因此听众可以认出幽默的意图。恶作剧和讽刺更有可能发明故事，而宣传经常结合真相，谎言和含糊之处来混淆读者。

为了表征新闻类型之间的差异，我们将各种词汇资源应用于可信和虚假的新闻文章。我们从计算语言学的交流理论和文体分析的先前作品中汲取词汇资源。我们使用NLTK（Bird et al.,2009）和每个词典计算每个文档的计数来标记文本，并报告每种类型的每篇文章的平均值。

表1 用于第二章节分析的新闻文章

这些词典中首先是语言查询和字数统计（LIWC），这是一个在社会科学研究中广泛使用的词典（Pennebaker et al.,2015）另外，我们用情感词典估计强烈和弱主观词的使用（Wilson等，2005）。主观的话可以用来构成戏剧化或耸人听闻的新闻报道。我们也使用词汇进行对冲（Hyland，2015），因为闪烁其词可以表示模糊的语言。最后，我们根据假新闻文章试图使故事吸引读者的假设，引入我们从维基文库中搜索的强化词典。我们编辑了五个维基词典中的表格，这些表格包含了戏剧化程度（比较，最高级别，动作副词，方式副词和语气副词）并测量了它们的存在。

讨论表2总结了不可靠的新闻和真实的新闻之间对少数测量特征的平均比率。大于1的比率表示虚假消息中更突出的特征，小于1的比率表示真实消息中更突出的特征。Bonferroni校正后Welsch t检验报道的不可靠/可靠新闻之间的比率在统计学上显着（p <0.01）。

表2 语言特征及其与假新闻的关系。该比率指的是在虚假新闻文章中出现的频率与受信任的文章相比有多频繁。我们列出了在假新闻中更明显的语言现象，然后是那些在假新闻中显得比较少的语言现象。例子展示了包含词汇单词的新闻文章的示例文本。所有报告的比率都有统计学意义。最后一栏(MAX)列出了最重要的假新闻词汇(P=宣传，S=讽刺，H=恶作剧)。

我们的研究结果表明，第一人称和第二人称代词被用于更不可靠或欺骗性的新闻类型。这与其他领域的研究（纽曼等人，2003）形成了鲜明的对比，发现人们对自己个人意见的谎言的较少自我引用。新闻作家不同于那种做法，试图表现出漠不关心的态度。可信赖来源的编辑可能会更加严格地去除似乎过于个人化的语言，这是导致这个结果与其他谎言检测领域不一致的原因之一。相反，这一发现证实了Ott等人（2011）和Rayson等人（2001）在书面领域中发现的先前工作。他发现这样的代词是富有想象力的写作的象征。也许富于想象力的讲故事领域比检测意见更接近于检测不可靠的新闻。

我们的研究结果还表明，可以用来夸大的词语 ——主观的，最高级的和情态副词 - 都被假新闻所使用。用于提供具体数字的词语 ——比较，金钱和数字——在真实的新闻中显得更为突出。这也是基于Ott等人之前对超级/比较用法区别的发现。

可信来源更倾向于使用自信的词汇，而不太可能使用对冲词汇，这表明他们对描述事件的描述也较少。这与心理学相关（Buller and Burgoon，1996），欺骗者表现出更多的“不确定性和模糊性”和“间接的表达形式”。类似地，可信来源更频繁地使用听到类别词语，可能表明他们更频繁地引用主要来源。

表2最后一列显示最突出使用相应词典的假新闻类型。我们发现，与其他类型的不可信的新闻相比，讽刺的一个显着特征是其副词的显著使用。恶作剧的故事往往使用较少的最高级和比较。相比之下，与其他类型的假新闻相比，宣传则使用了较为自信的动词和最高级的动词。

新闻可靠性预测 我们的研究将新闻文章的可靠性预测分为四类：可信，讽刺，恶作剧或宣传。我们将收集的文章分成平衡的训练集（2万篇来自Onion，AmericanNews，The Activist，“APW”，“WPB”的文章）和测试集（其余来源的3k篇文章）。由于训练和测试集中的文章来自不同的来源，所以模型必须不依赖作者的特定线索对文章进行分类。我们还使用20％的训练文章作为域内开发集。我们训练了一个在n-gramtf-idf特征向量上的L2正则化的Max-Entropy分类器（直到三元组）【4N-gram tfidf向量作为跨域文本分类的竞争手段。张等人在2015年发现，对于数据集小于一百万的例子，这是最好的模型，超越了神经模型】。

表3 新闻可靠性的4-way分类器的F1分数

该模型在域外测试集中获得了65％的F1分数（表3）。这是一个有希望的结果，因为它远远高于随机性，但与由来自域内来源的文章组成的开发集合的性能相比仍然有待改进。

我们检查了MaxEnt分类器中每个类的50个最高权重的n元模型特征。受信任新闻的最高加权n元模型往往是特定的地方（例如“华盛顿”）或时间（“星期一”）。从讽刺加权的许多最高的含糊其辞的传闻（“据报道”，“确认”）。对于骗局文章，权重较高的功能包括不同的主题（“自由派”，“王牌”）和戏剧性提示（“打破”）。权重较高的宣传特征倾向于抽象概括（“真实”，“自由”）以及具体问题（“疫苗”，“叙利亚”）。有趣的是，“youtube”和“video”分别对于宣传和骗局类别有很高的权重。表明他们经常依靠视频剪辑作为来源。

3 预测真实性

政治数据 与确定新闻文章的真实性相关的问题是对公众人物的个人陈述进行事实核查。误导性陈述也可以有多种意图和可靠性水平，取决于谁是陈述者。

PolitiFact是一个由坦帕湾时报记者主导的网站，他们主动对可疑的陈述进行事实核查。 PolitiFact的独特之处在于，每一个报价都是从“真实”（实际）到“谎言”（荒谬错误）的6分制的真实性评估。这个尺度允许区分大多数类别（事实是正确的，但是以不完全的方式）或者大部分是错误的（事实是不正确的，但是与真理的一个小核心有关）。

我们从PolitiFact及其衍生网站（PunditFact等）收集了有标签的声明（总共10,483份声明）。我们分析了原始发言者直接引用的一组4,366个陈述。表4列出了该子集PolitiFact量表的评分分布。大多数陈述都被标记为既不完全真实也不假。

我们用Politifact数据制定一个细致真实的预测任务。我们分别将引语用于{2575，712，1074}语句的培训/开发/测试集，以便每个演讲者的引语都在一个集合中。给定一个陈述，该模型返回一个评级，声明是多么可靠（政治评级被用作黄金标签）。我们在两个环境中进行了实验，一个考虑了所有6个等级，另一个考虑了2个（将前三个真实评分视为真，将较低三个视为假）。

模型我们训练了一个LSTM模型（Hochreiterand Schmidhuber，1997），它将单词序列作为输入并预测政治评级。我们还将这个模型与最大熵（MaxEnt）和朴素贝叶斯模型进行了比较，这些模型经常用于文本分类。

对于MaxEnt和朴素贝叶斯模型的输入，我们尝试了两种变体：一种使用tf-idf向量作为输入，另一种使用LIWC测量连接到tf-idf向量。对于LSTM模型，我们使用了单词序列作为输入，还有一个版本，其中LSTM输出与LIWC特征向量联合，然后进入激活层。 LSTM字嵌入初始化为来自GLOVE（Pennington等，2014）的100-dim嵌入，并在训练期间进行微调。 LSTM与Theano和Keras一起实现，隐藏状态为300-dim，批量为64，使用ADAM进行训练以使分类交叉熵损失最小化10个历元。

分类器结果 表5总结了开发集的性能。我们在表格中报告所有宏观平均F1分数。当仅使用文本作为输入时，LSTM优于其他模型; 然而另外两个模型在增加LIWC特征的情况下大幅提高，特别是在多项式朴素贝叶斯模型的情况下。相比之下，LIWC的特征并没有太多的改进神经模型，表明这些词汇信息对于模型已经从文本中学到的东西可能是多余的。

表5 模型在政治事实验证集上的表现

表6 模型在政治事实测试集上的表现

我们在表6中报告了测试集的结果。我们再一次发现了LIWC特征优化了MAXeEnt和朴素傅里叶模型向LSTEM模型表现靠拢的过程。LIWC并没有改进LSTM的性能表现，甚至在某些程度上对其表现进行了轻微的伤害。

4 相关工作

欺骗检测人际欺骗理论中的心理语言学工作（Buller and Burghonon，1996）假定某些言语模式可能是说话人试图有目的地模糊真相的标志。例如，对冲词和其他含糊的限定词（Choi等，2012; Recasens等，2013）可能会增加间接性，使其含义模糊不清。

语言方面的欺骗检测已经在各种NLP应用中被充分研究（Ott等人，2011; Mihalcea和Strapparava，2009;Jin-dal和Liu，2008; Girlea等人，2016; Zhou等人，2004）。在这些应用中，人们故意撒谎以获得外在的回报。在我们的研究中，我们比较了不同类型的不可靠的新闻来源，创造了不同的意图和准确性的等级。

事实核查与虚假消息 政治学研究正在探索如何有效的事实检查来提高人们的意识（Lord等，1979;Thorson，2016; Nyhan和Reler，2015）。先前的计算工作（Vlachos和Riedel，2014; Ciampaglia等，2015）已经通过知识库提供了事实核查。我们的工作采取更多的语言学方法，对不同类型的谎言进行词法分析。

比亚尼等人（2016）考察了clickbait文章中独特的语言风格，Kumar等人（2016）也在维基百科中描绘了恶作剧文件。这些假新闻类型的区别也在以前的工作中提出（Rubin et al。，2015）。我们的论文通过提供不同类型的假新闻中的语言差异的定量研究来扩展这一工作，并建立跨多个领域的等级欺骗的预测模型 - PolitiFact（政治真相新闻网）和新闻文章。最近的工作（Wang，2017）也调查了PolitiFact（政治真相新闻网）的数据，然而他们调查的元数据特征进行预测，而我们的调查集中在通过文体词汇的语言分析。

5 结论

我们考察多个领域的真实性及其贡献的语言属性，例如在线新闻资源和公开声明。我们对不同真实程度的事实检查陈述（分级欺骗）以及不同类型的假新闻（如传播，讽刺和恶作剧）的深层语言比较进行多重预测任务。我们已经证明，事实检查确实是一个具有挑战性的任务，但是各种词汇特征可以帮助我们理解更可靠和更不可靠的数字新闻来源之间的差异。

论文下载链接：

http://www.aclweb.org/anthology/D/D17/D17-1317.pdf

留言点赞发个朋友圈

我们一起探讨AI落地的最后一公里

推荐文章阅读

10篇AAAI2017经典论文回顾

收藏 | 2018年AI三大顶会中国学术成果全链接

ACL2017 论文集：34篇解读干货全在这里

长按识别二维码可添加关注

读芯君爱你

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

谁会想到，裁员会裁到总编辑头上

“环评”提质增效助力高质量发展？

13岁男孩杀害8岁女童案今日开庭，女童父亲：侮辱遗体、没有悔罪

法官累积受贿929万：介绍案源、解冻账户、提取管理人报酬