查看原文
其他

牛!这个成电博士生用“基因检测”破解了网站“指纹”识别难题


从“比特币”到海外代购,跨境交流和贸易往来从未像今天这样方便快捷。然而,随之而来的网络犯罪、境外网络诈骗等案件也如影随形,危害十分严重。因此,暗网和僵尸网检测成为现代社会网络安全重要议题。


(啥叫暗网、僵尸网?小电先来给大家做一个小小的科普:暗网是指那些存储在网络数据库里、但不能通过超链接访问而需要通过动态网页技术访问的资源集合,不属于那些可以被标准搜索引擎索引的表面网络。僵尸网是指采用一种或多种传播手段,将大量主机感染僵尸程序病毒,从而在控制者和被感染主机之间所形成的可一对多控制的网络 。)


然而,随着隐私保护技术的不断深入,暗网、僵尸网络技术得到快速发展。由于通信内容和通信双方都被隐藏,很难依靠传统手段进行网络检测。于是,研究者们提出了一种新的解决思路——网站“指纹”识别。所谓网站“指纹”,指的是访问该网站时发送和接收数据包产生的特有信道特征。


然而,这种技术目前距离“实战”还有较大的距离。总体来说,它还处于未完全成熟的状态,尤其是在面对网页的“多级页面跳转”等问题时依然束手无策。如何进一步提高网站指纹识别的能力,电子科大这个博士生发现了一个新方法!


我校计算机科学与工程学院(网络空间安全学院)2013级直博生卓中流受到生物医学领域的基因序列检测算法的启发,提出了一种高效的网站指纹检测算法,弥补了传统模型无法对多级页面跳转进行建模的缺陷,同时提高了单一网页的检测准确率。



 这项成果是基因序列检测算法在网络流量识别和针对僵尸网、暗网等检测方面的初次运用,为流量识别领域和网站指纹检测领域提供了新思路。相关论文已经发表在了信息安全领域顶级期刊《IEEE Transactions on Information Forensics and Security》。卓中流为第一作者,明尼苏达大学双城分校Zhi-li Zhang教授为共同作者,我校计算机科学与工程学院(网络空间安全学院)张小松教授为论文通讯作者。


把“基因检测”的算法运用到网站“指纹”的精准识别?这个跨度的确有点大!那卓中流是如何做到的呢?跟随小电一起来了解一下:


突发奇想:借用“基因检测”算法,提高网站指纹识别的能力


2016年3月,卓中流无意间看到一篇SCI四区的论文,研究的是如何用“生物基因序列”来做应用识别。他隐约感到,既然都是用于“识别”,那么,“生物基因序列”的方法很可能与网站指纹识别有一定的交集。


本来这只是一个灵光乍现的念头,但这个念头并没有像流星一样稍纵即逝。此后的五个月里,他查询了大量参考文献和资料。由于在准备申请公派留学,他就没有太多时间去做实验验证,直到参加了联合培养项目,于2016年10月到美国明尼苏达大学双城分校,他才真正地开始深入研究。


在明尼苏达大学双城分校,卓中流师从Zhi-li Zhang教授开展研究工作。巧的是,在这里他再次接触到了用“生物基因序列”来做“流量识别”的文章,于是,他更加坚定了自己的想法:生物基因序列的方法,一定可以用来识别网站指纹。


从2016年10月到2017年2月,卓中流只专注这一件事情。第一个难题就是:把“生物基因序列”方法用到网站指纹识别上的理论依据何在?在张小松教授的指点下,卓中流把目光投向生物医学领域。


“查找文献的过程还是很艰难的,因为我没有太多生物学的知识,只能一点一点地查找关键的理论。”他说,从高中毕业后就没有再摸过生物学的课本。没想到这么多年后还要“朝花夕拾”。


查询了大量资料后,他将一些生物学的理论知识融入了论文当中。Zhi-li Zhang教授也给予了很多指导,并提出了修改意见,还帮他修改了论文的introduction。



图1:用户首先选择一个暗网来代理其流量。然后攻击者被动地在用户和暗网入口之间检测网络流量。值得注意的是,攻击者不能够修改链路上的数据包,也不能够解密数据包。攻击者收集到用户流量后会与之前已知流量特征进行对比(特征包括数据包大小,数据包到达间隔时间,总共传输时间等)。最终攻击者找到与该流量最佳匹配的数据流记录,该流量记录正好是用户之前访问目标网站所产生流量。如此一来,攻击者便获知到用户访问暗网目标,达到追踪暗网的目的。



图2: 假设A.com只有4个超级链接,其中2个为内部链接(即A.com网站内部的跳转链接),另外2个为外部链接(即从A.com跳转到其他网站或与A.com网站相关的链接)。这种隐藏的链接关系,可以被利用来增加对A.com的识别效果,使得更容易识别A.com。



实验验证:访问1000多个网站,几万次的程序运行


打好了理论基础,只是研究的“前奏”。更加艰苦的工作,其实还在后面。


2017年2月,他完成初稿后,立即投给了信息安全领域顶级期刊《IEEE Transactions on Information Forensics and Security》。投稿后,他其实已经做好了“大修”的准备。到了5月中旬,初审意见回复,审稿人建议卓中流补充实验和数据以便更好地说明观点。卓中流立即按照意见进行修改。


补充实验和数据的过程,他简直像是一个修行的“苦行僧”:他用网络“爬虫”访问了1000多个网站,每个网站至少爬取20次以上;在几万次程序运行中,他还要解决“网络抖动”问题以及程序的bug等意想不到的情况。由于不同网站具有不同的结构,反馈的结果也大相径庭,他需要不断调整自己的程序运行规则。


有一次,程序运行到凌晨4点突发断网,他赶紧从被窝里爬出来,去调整数据接口。这次之后,他长了个心眼,在爬取网站时每隔2个小时就去看看程序运行情况。后来,干脆在手机上专门装了一个远程控制软件,可以实时监控程序运行情况,“连吃饭时都要时不时查看手机。”


2017年7月初,经过大修大补之后的论文发了过去;9月底,论文顺利录用。《IEEE Transactions on Information Forensics and Security》是中国计算机学会(CCF)推荐的网络安全方向仅有的三个A类顶级期刊之一,在网络安全领域期刊中排名第二,该刊2016年影响因子为4.332。



良好效果:学科交叉带来意外收获


将“基因检测”算法运用于网站“指纹”的识别,取得了意想不到的效果。在有背景噪声的情况下,采用传统的解决方案,网站的流量特征识别率会变低,无法完全反映流量特征。而卓中流在论文给出了一个识别更加稳定的算法,能够更好地匹配网站的流量特征。


同时,传统的解决方法都只是在某个网页的超链接构建网页指纹,而他的方法能够把多个网页的超链接结合起来,构建一个更长、更详细的网站指纹,实现了从部分到整体的飞跃。这就相当于基因测序工作从“单个基因检测”一下子跃升到了“人类基因组测序”,因此,它能更加真实地显现用户的访问路径。


据了解,这项流量特征识别技术除了能在网站指纹方面进行使用外,同样能用于对病毒的防护,因为它可以给病毒建立特征序列和“基因图谱”,从而能够很高效地撕下电脑病毒的伪装,防止病毒“蒙混过关”。未来,这种方法还可能在网络攻防中有所建树,尤其是随着互联网已经越来越深入地渗透到社会的方方面面,这项技术也会在我们的生活中起到越来越重要的作用。


“交叉学科研究确实让人受益匪浅!”卓中流说,以开放的态度吸收借鉴其他领域的智慧,可以让我们有更加宽广的学术视野,让我们的思维变得更加“活”起来。

文:学生记者团 游晓鹏 张景淇




官微小编团春季招新报名:还有

文章已于修改

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存