查看原文
其他

麻省理工学院的新系统TextFooler, 可以欺骗Google的自然语言处理系统及Google Home的音频

来源 | news.mit

编译 | 武明利

责编 | Carol

出品 | AI科技大本营(ID:rgznai100)


两年前,Google的AI还不太成熟。一段时间以来,有一部分计算机科学研究一直致力于更好地理解机器学习模型如何处理这些“对抗性”攻击,这些攻击是故意用来欺骗或愚弄机器学习算法而创建的输入。


尽管大部分工作都集中在语音和图像上,但最近,麻省理工学院计算机科学与人工智能实验室(CSAIL)的一个团队针对文本的边界进行了测试。他们提出了“ TextFooler”这一通用框架,该框架可以成功地攻击自然语言处理(NLP)系统——这类系统使我们能够与Siri和Alexa语音助手进行交互,并“愚弄”它们以做出错误的预测。


可以想象将TextFooler用于许多与Internet安全相关的应用程序的情形,例如电子邮件垃圾邮件过滤,仇恨言论标记或敏感政治言论文本检测,这些都是基于文本分类模型的。可以想象将TextFooler用于许多与Internet安全相关的应用程序,例如电子邮件垃圾邮件过滤,仇恨言论标记或“敏感”政治言论文本检测,这些都是基于文本分类模型。



“如果这些工具容易受到有目的的对抗攻击,那么后果可能是灾难性的” 麻省理工学院博士研究生Di Jin、同时也是一篇有关TextFooler的新论文的主要作者说到。  “这些工具需要有有效的防御方法来保护自己,为了建立这样一个安全的防御系统,我们首先需要研究对抗方法。

TextFooler分为两个部分:修改给定的文本,然后使用该文本测试两个不同的语言任务,查看系统是否可以成功欺骗机器学习模型


该系统首先识别将影响目标模型预测的最重要的单词,然后选择符合上下文的同义词。 这一切都是在保持语法和原始含义足够看起来“人性化”的同时,直到预测被改变。


然后,将该框架应用于两个不同的任务——文本分类和蕴含(句子中文本片段之间的关系),目的是更改分类或使原始模型的蕴含判断无效。



在一个示例中,TextFooler的输入和输出为:


输入:

“The characters, cast in impossibly contrivedsituations, are totally estranged from reality.” 


输出:

“The characters, cast in impossibly engineeredcircumstances, are fully estranged from reality.” 


在这种情况下,当在NLP模型上进行测试时,它会正确输入示例输入,但随后得出的修改输入是错误的。


总之,TextFooler成功地攻击了三种目标模型,包括流行的开源NLP模型“ BERT”。 通过仅更改给定文本中10%的单词,它以90%以上至20%以下的准确性欺骗了目标模型。 该团队根据以下三个标准评估了成功程度:更改模型对分类或蕴涵的预测;与原始示例相比,它在意义上与人类读者是否相似以及文字是否看起来足够自然。


研究人员指出,虽然攻击现有模型不是最终目标,但他们希望这项工作将有助于更抽象模型泛化到新的、看不见的数据。


Di Jin说:“该系统可用于或扩展来攻击任何基于分类的NLP模型,以测试其健壮性。另一方面,生成的对手可通过对抗训练来提高深度学习模型的鲁棒性和泛化能力,这是这项工作的关键方向。


【end】



精彩推荐


疫情肆虐,灾难当前,CSDN 联合PyCon中国、wuhan2020、xinguan2020 等力量举办「Python开发者日」线上公益峰会,本次活动特邀数位一线Python技术专家重点围绕python在疫情项目中的具体应用展开,分享真实项目环境中使用Python应对挑战的真知灼见。


两种报名方式
1.点击“立即报名”--结算时使用优惠码“pythonday”,价格变为“0"元--提交订单,免费参与
2.点击“立即报名”--付款“19元”报名--会议官网公示姓名--😷为疫区捐款表心意😷



推荐阅读


    你点的每个“在看”,我都认真当成了AI

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存