查看原文
其他

【技术干货】「启发式领域适应」成果入选NIPS2020,新一代算法「鉴黄师」诞生

还在发愁网购的东西可能是假货?

导语:来自阿里安全图灵实验室和中科院计算所的研究人员将经典的「启发式搜索」思想融入到领域适应问题中,以解决数据不充分情况下的模型训练问题,进而将人工智能从现有数据学习到的知识迁移到未知场景中。比如,在鉴黄场景下,目前该研究提出的技术可直接从电商场景迁移至直播场景。

相关论文《启发式领域适应》(Heuristic Domain Adaptation)已被人工智能领域顶级会议NeurIPS 2020(神经信息处理系统大会)接收。



深度学习为代表的现代人工智能技术,已成为安全智能化的重要组成部分。高精度的深度学习模型通常需要大量经过准确标注的训练样本,且训练样本与真实样本满足独立同分布条件。


而安全场景具备两个典型特点:一是在很多场景下,风险或者违规样本的收集成本比较高,二是业务存在对抗和变异,其真实样本分布随着时间不断演变。因此,安全新基建需要利用小样本、迁移学习增量学习技术来解决数据不充分情况下的模型训练,和数据变异情况下的模型迭代问题。


内容安全治理面临着多用户多场景问题,单一模型无法同时在多个场景中达到最优效果,因此高效解决不同图片域、风险域的识别问题成为目前内容安全的主要问题之一。

研究者认为,在经典的DAN以及DANN方法中,直接对齐也会在高维空间产生「障碍物」,从而影响最终收敛效果。


「启发式」领域适应


该研究采取的技术方案借鉴了经典的启发式搜索思想,强调在完成任务、识别具体物体的过程中,应额外对环境场景等无关因素进行建模。在相对固定的环境与场景中,环境特征H(x) 并不难建模。估计的环境信息实际上相当于启发式信息,可以指导用于商品识别的特征G(x)。同时估计的环境信息不要过多,也就是H(x) 的范围不应过大,否则过多建模的环境信息容易影响商品类别信息的

建模。


在具体的实现中,阿里安全和中科院的研究者分析了环境特征H(x) 和商品特征G(x) 之间的相似性、独立性和终止条件。


关于相似性,他们强调环境和商品特征应该有所区分,但同时还应关注易混淆的特征。所以,相似性分析最终得到初始时相似度的约束,而放弃其全部训练过程的约束。考虑到环境应该是领域不变而不同商品变化,两者的特征应该具有独立性,并可通过其高斯性度量来约束。


启发式搜索中,距离终点的距离呈现整体下降的趋势,相应的估计距离也逐渐减少。类似地,在启发式搜索中将启发式特征H(x) 的范围缩小到接近零的约束。



基于以上条件构建出启发式网络的基础网络结构(HDAN),并从理论和实验两方面分析该方法的正确性。


该研究证明,在启发式指导下,理论上可以实现更低的误差上限。



网络结构方面,相比于DAN,研究者新增Heuristic Network来对H(x) 函数进行构造;通过不同初始化分组来构建多条H(x) 通路。



优化函数方面,对于H(x) 分支的训练进行初始态和收敛态约束。


研究者将HDAN应用在具体的三个领域适应场景中:无监督领域适应(UDA)、半监督领域适应(SSDA)和多源域领域适应(MSDA),并取得了SOTA结果。


效果与应用


论文一作崔书豪举例说,与电商场景不同,直播场景不仅有主播等人物,还常常有桌椅家具等繁杂的物品背景,这些差异会导致电商场景下的搜索识别技术迁移应用效果不佳。通过将「启发式搜索」思想融入,研究团队构建了启发式领域适用的基础架构,并通过相似性、独立性、终止点等角度进行约束,使算法模型在相同计算量下,达到最佳效果。


论文共同作者王树徽介绍道:「针对复杂任务和场景,迁移学习的鲁棒性(稳定性)与可扩展性主要体现为如何更好地提取领域不变特征。相比以前的研究,本研究所提方法能够更好地实现复杂迁移学习任务的域不变特征学习,提高了多种迁移设定下的泛化性能。」目前,该成果主要用于内容安全识别,如直播或动漫人物及速写场景是否涉黄等。



阿里安全新一代安全架构核心技术入选AI顶会NeurIPS,该成果主要用于鉴黄等内容安全场景,目前该研究成果技术可直接从电商鉴黄场景迁移至其他场景。


「AI技术应用在不同的场景下可能有着同样的任务目标,但如何更好地将AI在某一场景下习得的知识用于不同场景,是『领域适应』致力于解决的问题。」阿里安全图灵实验室高级安全专家华棠介绍说,人们对能够实现领域适应的AI需求越来越大,如安全领域的暴恐识别、不良场景鉴定(如区分成年人和未成年人吸烟)等。


消费者每天面对的信息流越来越多,其中不乏有害信息,这会严重侵扰网络环境的健康发展,内容识别与审核角色的重要性因此凸显。阿里安全图灵实验室负责人薛晖表示,阿里安全通过研发,将内容识别技术产品化,形成云盾内容安全(绿网)解决方案,并将其深入到直播审核等领域。


「以深度学习等为代表的人工智能技术,已成为当前安全智能化的重要组成。」华棠表示,风险或违规样本收集成本较高、业务存在对抗和变异等特点,使得深度学习模型无以为继,因此研究探索基于小样本和增量学习技术的模型训练与迭代,变得非常重要。


薛晖透露,目前阿里正围绕诸多生活中的内容安全审查需求,研发智能化审查一体的内容识别技术。


作者简介


本文第一作者是阿里安全的实习算法工程师崔书豪。2018年本科毕业于清华大学自动化系,现在是中科院计算所VIPL实验室三年级硕士生,研究方向主要为深度领域适应学习技术,提交的相关两篇论文为CVPR收录。其指导老师为中科院计算所研究员王树徽,长期从事跨模态、跨域分析推理技术研究。论文合作方为阿里安全图灵实验室,围绕生活中的诸多内容进行安全审查,力求实现智能化自动化过程。

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存