查看原文
其他

产业实践 | 阿里研发AI技术可识别拦截数十国多语种脏话图


在购物平台的用户交互场景中为了规避平台的审核,一些小广告和口吐芬芳的脏话以文字形式呈现。
随着对抗的升级,在部分国际平台中,“买家”在商品评论中以英语评论图骂人,或者在交互场景中,买卖双方以俄语脏话图片对阵。
国际平台风控团队和算法团队复盘了很多案例,发现除了多语种脏话,多语种垃圾广告以及不良信息也会暗藏在图片中,试图对抗风控。
全球有几百种语言,重点的语言也有几十种,一个工作人员最多认识三四种语言,在国际化场景下,靠人工识别风险图片是不现实的,多语言识别的技术需求应运而生。



近日,阿里安全算法团队宣布,其研发用于网络脏话的AI(OCR)技术,已能识别近30种语言


包括嵌入图片中的英文、阿拉伯、俄语、法语、西语、日语、韩语、泰语、越南语、波斯语、孟加拉、尼泊尔、僧伽罗、朝鲜、苏丹、德语、荷兰语,以及马来语、塔加洛语、土耳其语、意大利语、印尼语等国语言,甚至还包括三种中国少数民族语言。


俄语脏话示意(左)暗藏英语脏话图(右)


阿里安全高级算法工程师沄帆介绍,要识别多语种文字,就要了解各个语言文字特点,以及影响算法识别的问题。


每种文字体系都有自己的字体,不同字体会导致同一字符出现字形上的差异,例如下图一展示了汉字“字”在不同字体时的形态,以及手写文字中的字符变化。


下图二则展示了俄语字母在手写体和印刷体时的差异,红框标出了部分字符会出现字形上的巨大变化。

图一(左)图二(右)


 “字符连接导致字形变化,不同文字体系,书写及阅读顺序是不同的,这些都会影响AI识别和对语义的判断。”沄帆说。


例如,相同的单词在不同的语种里也可能有不同的含义,“jammer”在荷兰语里是“遗憾”的意思,但是在英语中是“信号屏蔽器”,可能涉及违规。


“以前没有多语种识别功能的时候,我们如果把这个口语词直接拦截,可能会造成‘误杀’,脏话图识别也是如此,要依据语种来判断。”


除此之外,还有脏话图以置换正常字符顺序,对抗风控的情况出现,如下图所示,即使调换字符顺序,人还是可以轻而易举地判断单词的含义,但这种“攻击”试图以打乱字母顺序的方式骗过机器识别。


  对抗的脏话图


当然,要训练如此多语种的识别模型,并解决多种对抗情况并不容易。技术团队既要保证好的识别效果,又要尽可能提高计算效率及控制成本,解决好训练样本及模型方案的问题。


通过一年多努力研究,阿里安全算法团队对这些点进行了逐个突破,通过改进多语言样本生成方案与多语种识别模型框架,在多种图片语言的识别上做到了高识别率,以及做到识别1张脏话图只需0.15秒的速度,目前该技术也已应用在阿里多项国际业务中,总体识别准确率可达95%以上,并对各种艺术字体、复杂背景以及手写图进行了针对性识别优化。


其实,脏话拦截只是多语种OCR识别技术应用的场景之一,阿里安全国际风控小二文萱介绍,在交互场景里,违规信息中还有大部分属于垃圾信息。


现在,基于阿里安全的算法能力,每天仅单个国际平台就为全球用户拦截几万次包含危险、辱骂、垃圾文本的多语言脏话图片。


阿里安全图灵实验室算法负责人薛晖表示:“期待以科技创新解决实际业务问题,帮助造就更好的网络环境和网络安全。”




产业实践 往期推荐点击标题查看文章

博士毕业后,他在淘宝“扫垃圾”?



阿里AI黑科技成团出道,可防火防伪防疫还能反诈鉴黄与打假……



阿里“塔玑”太逼真:外籍模特不再吃香?



万能的淘宝上买不到什么?



阿里建全球最大奢侈品商标数据库:无偿提供给全球科研团队使用识别假货



AAIG参与发布《人工智能产业担当宣言》



一场猎杀AI的残酷游戏:把枪口对准人工智能,是为了吓退黑暗丛林中的对手



阿里实人认证安全性通过FIDO全球权威认证



多举措提升直播品质 阿里协助警方侦破直播售假案



为AI攻防测能力,清华联合阿里、RealAI发布全新测试基准平台Adversarial Robustness Benchmark



阿里巴巴成立人工智能治理与可持续发展实验室(AAIG)



巡检「局部抄袭」,阿里服饰版权算法入选AAAI 2020



阿里新一代安全架构核心AI技术夺冠,机器阅读理解准确率战胜人工



复工潮的疫情防控多了一双“火眼金睛”——AI防疫师



技术干货 往期推荐点击标题查看文章

AI在茫茫人海中,看到只有你被Deepfake了



给AI系统做“安全体检”,阿里安全提出自动化AI对抗平台CAA | AAAI 2021



给图片打「马赛克」可骗过AI视觉系统,阿里安全新研究入选ICCV 2021



你算个什么鸟?AI十级“找茬”选手诞生



「启发式领域适应」成果入选NIPS2020,新一代算法「鉴黄师」诞生



4项新一代安全架构核心AI技术沉淀的论文被国际会议ICASSP收录



用“算法”模拟光束可攻击自动驾驶车辆,专家呼吁重视AI安全



张钹院士解读AI安全治理三大痛点+信通院AI数据安全治理的七条建议



准确检测DeepFake视频,阿里新算法从多个人物中识别被篡改的人脸



只要AI跑得快,色情黑话就追不上我



让 AI 训练 AI:揭秘阿里、浙大的 AI 训练师助手



爱心公益 往期推荐点击标题查看文章

为数十万盲人修建网络盲道:阿里的追光者每天为数亿张图片把脉,帮助盲人“听图”



“绿网计划”对数百亿次非正常搜索进行公益化疏导



半夜,他偷偷在互联网上呼救



被隔离的阿里安全工程师们:11 天造出疫情 AI 防控系



AAIG CUP 往期推荐点击标题查看文章

抱大腿攻击是什么?AAIG CUP暨第三届 Apache Flink 极客挑战赛启动!



更多人工智能治理和可持续发展技术

干货+产业实践分享

点击下方名片关注和星标

【阿里巴巴人工智能治理与可持续发展实验室】

为即将到来的更多治理干货点

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存