其他

为了消灭不友好评论,ins用200万条数据训练了FB的DeepText

2017-06-30 专注报道AI 量子位
安妮 编译整理
量子位出品 | 公众号 QbitAI

网络言论环境也该净化一下了,倡导言论自由的美国也意识到了这点。

昨天,图片社交平台Instagram推出两种文本过滤器:一种可以抵制冒犯性评论,一种能够过滤垃圾消息。Instagram官方公告上说,这是为了净化言论环境,将Instagram打造成更友善包容的社区。

文本分析并没有想象中那么容易,只分析单个词语的含义不足以判别整个句子的潜在意思。


由中性词语构成的句子可能饱含敌意,比如“只有白人拥有权力”;同样地,貌似粗鲁的句子可能会在语境中表示中性意,比如这句“Fuck what, fuck whatever y’all been wearing”其实是侃爷的一句歌词。

人类通常善于分析这些语法,但机器就觉得没那么轻松了。

去年六月,Facebook推出一款文本分类引擎DeepText,用机器学习的方法向机器解释语境下的词汇。Instagram的文本过滤功能就基于DeepText完成的。

DeepText采用了“词汇嵌入”的概念,模仿人脑语言区的工作方式。当系统遇到新单词时会像人类一样思考,并试图从上下文的其他单词推断含义,从而达到为评论分类并阻拦垃圾邮件的效果。

据《连线》杂志报道,有专门的承包商负责训练DeepText识别和分类恶意评论。

训练后的DeepText可以将这些评论分为“霸凌”“种族歧视”“性骚扰”等类别。在本系统上线前,评估人员至少用了200多万条评论训练集它,而每一条评论至少训练两次,来保证系统的准确性。

目前系统仅能处理英语评论,但Instagram计划将垃圾消息过滤器扩展到9种语言,包括英语、西班牙语、葡萄牙语、法语、德语、日语、俄语、阿拉伯语和汉语。也就是说,它将会被更广泛地应用。

【完】

一则通知

量子位正在组建自动驾驶技术群,面向研究自动驾驶相关领域的在校学生或一线工程师。李开复、王咏刚、王乃岩、王弢等大牛都在群里。欢迎大家加量子位微信(qbitbot),备注“自动驾驶”申请加入哈~

招聘

量子位正在招募编辑记者、运营、产品等岗位,工作地点在北京中关村。相关细节,请在公众号对话界面,回复:“招聘”。

 扫码强行关注『量子位』

追踪人工智能领域最劲内容


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存