查看原文
其他

人工智能之迁移学习与网络安全

2017-11-16 石志鑫 杨琨 中国保密协会科学技术分会

       人工智能(AI)在不同行业和领域有着广泛的应用,如在解决聚类、降维、同归和分类等问题方面,取得了非常好的效果。在网络安全中,也有着非常好的应用案列。但在很多情况下,现有人工智能系统在及时阻止网络攻击方面行动太慢,主要由于现有系统大都基于对已有知识的统计学习,很难发现未知和变种数据。为了降低模型再训练的复杂度和提高模型对噪声数据的鲁棒性,需要进行已有知识的迁移,即“迁移学习”,实现系统增量学习,从而提高人工智能在网络安全应用中的有效性。

背景

       当谈到人工智能时,通常指机器能够“模仿”认知功能,并执行诸如分类、异常检测或样本分组等任务,以类似于人类的方式有效地解决问题。在很多情况下,人工智能系统在及时阻止网络攻击方面行动太慢,因而需要设计能够学习和适应网络环境变化,并有潜力捕捉新的网络攻击等更加智能化的系统。

图1: 人工智能

       作为人工智能研究领域里的核心技术之一,机器学习在现代智能技术中有着举足轻重的作用。虽然机器学习已经取得了引人注目的成果,但和人的学习相比,机器学习还存在着明显的不足。传统的机器学习的基础是统计分析理论,而其前提必须满足假设一一训练样本和测试样本的分布要一致,这是一个非常严格的假设前提。在许多情况下,这种同分布假设并不能得到满足。为此,需要重新标记大量的训练数据以满足训练的需要,而标记新数据的代价很高,需要大量的人力与物力。另外,如果丢弃大量的、在不同分布下的训练数据也非常浪费,所以知识迁移(或者称“迁移学习”)变得相当重要。

图2: 迁移学习

迁移学习

      得益于人脑的特殊结构,人类能够快速学习知识,并且对许多未见的事物也能够很快的辨识。当两种学习情境相同或有很多相似之处,则前一种学习对后一种学习发生的迁移作用很大。

图3: 人类的迁移学习

       人类可以通过不断学习,继承和发展过去学到的知识,持续增强自己的能力。而绝大多数机器学习都是从零开始的,并不借鉴以前学到的知识,也不对学到的知识进行改进和发展,这很大程度上限制了机器学习的能力。受到人类学习方式的启发,学者们研究了机器学习中的迁移学习,以此来改进现有机器学习方法中的缺点。学会了迁移学习,机器就会提高利用以前学到的知识的能力,从而更好地实现增量学习。

图4:机器学习和迁移学习

       自从1995年迁移学习的概念被提出以来,迁移学习在学术界获得了广泛的关注。但由于迁移学习的定义过于宽泛,相关研究中曾出现各种各样的专用术语,包括learning to learn, life-long learning, mufti-task learning, meta-learning, inductive transfer, knowledge transfer等等。目前学术界对迁移学习(Transfer Learning或者Inductive Transfer)还没有一个统一的严格定义,比较经典的是2008年NIPS会议上针对迁移学习的定义:迁移学习强调的是在不同但是相似的领域、任务和分布之间进行知识的迁移。

45 32521 45 14942 0 0 3225 0 0:00:10 0:00:04 0:00:06 3225section>

图5: 迁移学习原理

       目前的迁移学习算法主要解决如何在数据非独立同分布情况下建立分类模型的问题,根据迁移内容时不同的知识表达方式,把迁移学习归纳为四种:基于实例的迁移学习、基于特征的迁移学习、基于参数的迁移学习以及基于关联规则的迁移学习。 

       在利用迁移学习理论时,主要考虑What、How、When三个方面问题,即迁移什么(What to transfer)、怎样迁移(How to transfer) 、什么时候迁移(When to transfer)。迁移什么,主要针对知识中哪些知识可以在不同源域和目标域之间进行迁移进行研究;怎样迁移主要是讨论迁移的方法,通过获取不同域之间共同的知识,然后设计方法进行迁移,这些要求是通过新的算法来实现的;什么时候迁移,就是迁移的环境,当环境中的知识不相关时,如果仍然利用迁移技术进行迁移,就会造成所谓的负反馈,对算法造成相反的影响。

迁移学习与网络安全

       目前,迁移学习的研究方兴未艾,其典型的应用方面的研究主要包含有文本分类、文本聚类、情感分类、图像分类、协同过滤、基于传感器的定位估计、人工智能规划等,并且在各个领域的顶级会议上都有相关的成果发表,其中包括数据挖掘领域的KDD,、ICDM和PKDD,机器学习领域的ICML,、NIPS,、IJCAI等,以及各个领域的应用会议,如SIGIR,、ACL,、WWW等。

       目前迁移学习在网络安全领域中的应用还十分稀少。在网络异常检测方面,提出了一种基于直推式迁移学习方法和D-S理论的算法(LMPROJ+D-S)。首先用迁移学习方法对已知网络攻击进行建模,此模型在构建时考虑了不同分布的异常攻击间的差异; 然后用其训练得到的分类器对未知的网络行为进行分析,结合D-S证据理论,可以检测出分布不一致的未知攻击类型。

图6: LMPROJ+D-S的网络异常检测模型

       此外,迁移学习在钓鱼网站URL检测方面也有比较好的应用,用于发现钓鱼网站URL特征在不同的地域、不同语言环境下呈现出各异的分布趋势。而造成这些分布差异化的原因,正是因为不同国家的攻击者对钓鱼网站URL的伪装方式、部署途径存在较大差异。这反映到URL中,便导致了特征分布随地区发生偏移的现象。针对反钓鱼引擎分类算法所遇到的不同地域特征分布不同等问题,基于迁移学习的钓鱼攻击识别模型得到了非常好的效果,该引擎的设计分为六个主要部分,分别为:多源数据探针、流数据中的URL提取、基于专家知识库的特征提取与特征表示、钓鱼攻击识别、正则逻辑回归的模型训练以及跨领域分类模型迁移。

未来发展方向

       目前迁移学习研究存在的问题有:针对领域相似性、共同性的度量,目前还没有深入的研究成果。在算法研究方面,不同的应用,迁移学习算法的需求有所不同。此外,关于迁移学习算法有效性的理论研究还很缺乏,需要进一步研究可迁移学习条件,以此获取实现正迁移的本质属性,避免负迁移。迁移学习作为一个新兴的研究领域,还很年轻,但是其表现出了强大的学习能力,使得人工智能的发展更加深入。

图7: 迁移学习存在的问题

参考文献:

[1] http://www.jianshu.com/p/185011e36b83

(迁移学习)

[2] 范亮, 陈倩. 人工智能在网络安全领域的最新发展[J]. 中国信息安全, 2017(4):104-107.

[3] https://www.commondreams.org/views/2015/07/27/stop-cisa-join-eff-week-action-opposing-broad-cybersecurity-surveillance

[4] http://nooverfit.com/wp/迁移学习101-transfer-learning-pretrained-learning-fine-tuning-代码与例程分析-源码实践/

[5] 庄福振, 罗平, 何清,等. 迁移学习研究进展[J]. 软件学报, 2015, 26(1):26-39.

[6] Sinno Jialin Pan and Qiang Yang. A survey on transfer learning. IEEE Transac-tions on Knowledge & Data Engineering, 22(10):1345–1359, 2010.

[7] http://www.92to.com/xinwen/2016/12-23/14867914.html

(香港科技大学杨强 KDD China 技术峰会演讲:迁移学习的本质与实际应用)

[8] Koçer B, Arslan A. Genetic transfer learning[J]. Expert Systems with Applications, 2010, 37(10):6997-7002.

[9] Wenyuan Dai, Yuqiang Chen, Gui Rong Xue, Qiang Yang, and Yong Yu. Trans-lated learning: transfer learning across different feature spaces. In International Conference on Neural Information Processing Systems, pages 353–360, 2008.

[10] 龙明盛. 迁移学习问题与方法研究[D]. 清华大学, 2014.

[11] 王东东. 基于迁移学习的入侵检测技术研究[D]. 中北大学, 2015.

[12] 赵新杰, 刘渊, 孙剑. 基于迁移学习和D-S理论的网络异常检测[J]. 计算机应用研究, 2016, 33(4):1137-1140.

[13] 张健毅. 大规模反钓鱼识别引擎关键技术研究[D]. 北京邮电大学, 2012


责任编辑:何洁

中国保密协会科学技术分会

请长按二维码识别,关注中国保密协会科学技术分会微信号。



往期精彩文章TOP5回顾

美国网络安全体系架构简介

起底突破物理隔离的USB设备攻击窃密技术

兰德公司对网络空间安全防御的建议

窃听风云:美国国徽背后的秘密

无处不在的窥视-美国Xkeyscore计划简介

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存