语言模型在虚假信息活动中存在误用——如何降低风险?
今日份知识你摄入了么?
OpenAI的研究人员与乔治敦大学安全与新兴技术中心和斯坦福互联网观测站合作,调查了大型语言模型如何被滥用于虚假信息活动。这项合作自2021年10月的研讨会开始,汇集了30名虚假信息研究人员、机器学习专家和政策分析师,并在一年多的研究基础上共同撰写了一份报告。本报告概述了语言模型如果被用在虚假信息活动中,可能会对整个信息环境构成的威胁,并分析了解决措施,给出了具体框架。(点这里进行阅读:https://openai.com/forecasting-misuse-paper)
随着生成语言模型的改进,它们在医疗、法律、教育和科学等不同领域开辟了新的道路。但是,与任何新技术一样,我们需要考虑的是,它们会如何被滥用。在不断发酵的网络Influence Operations的背景下——通过“暗中误导”来影响目标受众的想法——该文件提出了以下问题:
语言模型的变化如何影响了Influence Operations,可以采取哪些措施来减轻这种威胁?
对于这两个方面的问题,我们汇集了来自不同背景和具有不同专业知识——在网络虚假信息活动的tactic、technique和procedure方面有研究基础的研究人员,和生成AI领域的ML专家。
我们认为,关键是要分析AI影响Influence Operations后产生的威胁,以果推因,概述在大规模使用语言模型之前可以采取的措施。我们希望我们的研究能为AI或虚假信息领域的新政策制定者提供帮助,并帮助AI开发人员、政策制定者和虚假信息研究人员对解决办法进行深入研究。
AI是如何影响Influence Operations的?
当研究人员评估Influence Operations时,他们会重点考虑Influence Operations的actor,behavior和content(https://www.ivir.nl/publicaties/download/ABC_Framework_2019_Sept_2019.pdf)。语言模型驱动技术的广泛使用主要会影响以下三者:
Actor:语言模型可以降低运行Influence Operations的成本,将它们置于新的actor和actor类型的范围内。同样,自动生成文本的propagandist可能会获得新的竞争优势。
Behavior:使用语言模型的Influence Operations将变得更容易扩展,当前昂贵的tactic(例如,生成个性化内容)可能会更便宜。语言模型也可能使新的tactic出现——比如聊天机器人中的实时内容生成。
Content:与propagandist相比,由语言模型驱动的文本创建工具可能会产生更有影响力或更有说服力的信息,尤其是对于缺乏必要的目标语言或文化知识的人。它们还可以使Influence Operations更难被发现,因为它们重复地创建新内容,不需要借助于复制粘贴和其他明显的省时行为。
保守来说,我们认为语言模型至少将对propagandist起作用,并可能改变网络Influence Operations。即使最先进的模型是私有的,或者通过应用程序编程接口(API)访问来控制,propagandist也可能会成为它的开源替代方案,而各州县可能会自行投资于该技术。
看不见的“未知数”
许多未知因素,是否会影响语言模型,会在多大程度上被用于Influence Operations?报告中,我们深入探讨了许多问题。例如:
在进行深度研究或商业投资时,会出现哪些产生影响的副作用?哪些actor将对语言模型进行大型投资?
易于使用的文本生成工具何时才能公开提供?为Influence Operations设计特定的而非通用的语言模型,会更有效吗?
是否会制定规范来抑制那些发动AI influence operations的actor?actor会如何开展工作?
虽然我们期望看到技术的传播以及语言模型的可用性、可靠性和效率的改进,但关于未来的许多问题仍然没有答案。但即便如此,由于具有对根本问题研究的帮助,在这些“未知数”上下功夫进行探讨还是很必要的。
框架研究
为了规划前进的道路,报告列出了语言模型Influence Operations管道的关键阶段。每个阶段都有可能是重要的解决问题的点。为了成功地利用语言模型进行Influence Operations,propagandist需要的是:
模型存在
他们可以进行访问
他们可以从该模型传播内容
最终用户能受到影响
步骤如下所示
准备阶段:
模型假设
模型访问
内容传播
观念形成
解决办法:
AI开发人员构建的模型更尊重事实;开发人员使用radioactive data,使生成模型可检测;政府对数据收集施加限制;政府对AI硬件访问进行控制。
AI供应商对语言模型添加更严格的使用限制;AI供应商围绕模型发布制定新规范;AI供应商关闭security vulnerability。
平台和AI供应商协同识别AI内容;平台需要“个人身份证明”才能发布;依赖公众投入的实体采取措施,减少对误导性AI内容的接触;数字来源标准被广泛采用。
各机构开展“扫盲运动”;开发人员提供面向消费者的AI工具。
解决办法,是否可取?
虽然解决办法可以减少AI Influence Operations的威胁,并不意味着它应该落实到位。一些办法本身也有下行风险,某些情况下可能不太合适。虽然我们没有明确认可或评价解决办法,但该文件为政策制定者和其他人提供了一系列指导性问题供其考虑:
技术可行性:建议的解决办法在技术上是否可行?是否需要对技术基础架构进行重大更改?
社会可行性:从政治、法律和制度角度来看,解决办法是否可行?它是否需要进行复杂的协调工作,是否要激励关键actor实施它,在现有法律、法规和行业标准下它是否可操作?
下行风险:解决办法的副作用是什么,有多大?
影响:解决办法在减少威胁方面的效果如何?
我们希望这一框架能抛砖引玉,激发其他更多的有关想法,并希望指导性问题将帮助相关机构考虑各种解决办法是否值得推行。
这份报告远不是关于AI和Influence Operations未来的最终结论。我们的目标是确定目前的环境,并帮助制定未来研究的议程。
原文作者:Open Ai
翻译作者:高佑兮
美工编辑:过儿
校对审稿:Chuang
原文链接:https://openai.com/blog/forecasting-misuse/
本周公开课预告
往期精彩回顾
点击“阅读原文”查看数据应用学院核心课程