物联网入侵检测与机器学习

Original 潘泊凡中国保密协会科学技术分会 2023-01-26

导语

在过去的几年里，世界目睹了智能设备的生产和使用的急剧增长，这些设备被称为物联网(IoT)。这些设备相互之间以及与周围环境相互作用，以感知、收集和处理各种数据。

这类设备现在已经成为我们日常生活的一部分，并正积极应用于交通、医疗和智能家居等多个垂直领域。物联网设备通常资源受限，经常需要与雾节点和/或云计算服务器等其他设备通信，以完成某些需要大量资源需求的任务。这些通信带来了前所未有的安全漏洞，恶意方在这种异构和多方架构中找到了一个发动攻击的强大平台。本文主要针对现有物联网系统的入侵检测解决方案进行深入调查，其中包括物联网设备以及物联网、雾计算和云计算层之间的通信。同时，对入侵检测进行分类，并讨论机器学习和深度学习在入侵检测中的作用，对未来入侵检测的前景进行展望。

引言

毫无疑问，物联网(IoT)是过去几年最大的技术进步之一。思科估计，到2030年，全球将有大约300亿台物联网设备投入使用[1]。物联网技术的主要任务之一是物联网设备感知其环境，收集相关数据并相应地采取行动。这些设备经常与其他技术创新(如雾计算和云计算)通信，以促进存储和分析收集的数据的过程。尽管物联网给我们的现代生活带来了许多好处，但这一新兴技术也受到非传统安全风险的高度挑战。事实上，物联网设备的异构性质、它们对各种技术堆栈(如雾和云计算)和通信协议的依赖，以及跨物联网设备的不同资源能力，所有这些都使物联网非常容易受到安全攻击。此外，由于物联网设备负责大量的数据，它们很可能成为恶意攻击的目标，试图窃取、修改或篡改部分或所有这些数据。此外，许多物联网设备部署在高度关键的环境中(例如，军事、制造业、智能电网)，若被恶意方利用为攻击跳板平台，则攻击者可以通过该平台造成大规模破坏。

物联网设备虽然配备了一些安全工具和机制，但设备本身过度异构的性质阻碍了此类解决方案的部署。在受限于资源的短缺，以及缺乏较大的处理、存储和通信能力的情况下，物联网设备往往无法进行复杂的加密或身份验证[2]，甚至有时这些保密功能会减慢它们的正常运行效率。因此，研究人员最近开始研究更轻量级的安全方法：其中一种方法是设计更适合资源约束物联网设备的入侵检测系统。[3]为了更好地理解这一主题并突出一些新的研究方向，本文介绍了传统的入侵检测的背景及分类，以及如何利用统计学和机器学习的方法改善物联网设备入侵检测。

入侵检测的背景和概念阐释

目前，不同的联盟、财团、特殊利益集团和标准开发组织已经为物联网提出了大量的通信技术，这可能为物联网应用中的端到端安全带来巨大挑战。

物联网最流行的技术包括基础设施协议，如IEEE 802.15.4、ZigBee、6LoWPAN、DTLS和RPL以及应用协议，如CoAP和MQTT(消息队列遥测传输)。在这些协议和技术中，加密和身份认证的问题是如今物联网发展中的挑战。对于这些安全问题的保护，除了一些增强物联网安全的解决方案，也需要开发更多特定于物联网的安全工具，这也是设计物联网入侵检测系统来检测和保护物联网的必要性。

入侵检测的概念最早由Anderson在1980年提出，并由Heberlein在1990年引入网络系统。入侵检测系统（IDS）是一种工具或机制，用于保护给定的设备、节点等硬件或软件，防止它们受到恶意的，未经授权的访问。并通过分析网络或系统本身的活动来检测对系统或网络的攻击。

入侵检测系统(IDSs)是保护给定设备、节点或网络免受恶意攻击和/或策略违反的硬件设备或软件。IDS能够检测对系统的未经授权的访问，并向系统管理员发送警报，以便做出适当的决定

一个典型的入侵检测系统由传感器、分析引擎和报告系统组成。传感器位于不同的网络位置或主机上，其主要任务是采集数据。收集到的数据被发送到分析引擎，分析引擎负责检查收集到的数据并检测入侵。当分析引擎检测到入侵时，报告系统向网络管理员发送告警信息。

入侵检测系统的分类

入侵检测系统IDS可分为基于主机的IDS (Host-based IDS)和基于网络的IDS (Network-based IDS)[4]。

HIDS附加到设备/主机上，监视系统中发生的恶意活动。NIDS连接到一个或多个网段，并监视网络流量的恶意活动。与NIDS不同，HIDS不仅分析网络流量，还分析系统调用、运行进程、文件系统更改、进程间通信和应用程序日志。

IDS也可以分为基于签名的、基于异常的或基于规范的。在基于签名的方法中，当系统或网络行为与IDS内部数据库中存储的攻击签名相匹配时，IDS就会检测攻击。如果任何系统或网络活动与存储的模式/签名匹配，则会触发警报。这种方法在检测已知威胁时非常准确和有效，其机制也很容易理解。然而，这种方法对于检测新的攻击和已知攻击的变体无效，因为这些攻击的匹配签名仍然是未知的[5][6]。

基于异常的ids将系统在某一时刻的活动与正常行为概要进行比较，并在偏离正常行为超过阈值时生成警报。这种方法可以有效地检测新的攻击，但是，任何与正常行为不匹配的行为都被认为是入侵，界定正常行为的范围并不是一项简单的任务。所以，这种方法通常有很高的误测性。为了构建正常行为概要，研究人员通常使用统计技术或机器学习算法。

基于规范的方法在网络行为偏离规范定义时检测入侵。其所设定的规范是一组规则和阈值，定义了网络组件(如节点、协议和路由表)的预期行为。因此，基于规范与基于异常的检测具有相同的目的：识别检测到非正常行为。不过，基于规范的方法里，研究者需要手动定义每个规范的细则。

与基于异常的检测相比，手动定义的规范通常提供较低的误测性。此外，基于规范的检测系统不需要前置训练阶段，因为它们可以在设置好规范后立即开始工作。然而，手动定义的规范可能不能适应不同的环境，而且可能很耗时且容易出错。

IDS的放置策略很重要，一般分为集中式、分布式和混合式的策略。集中式的策略中，IDS放置在整个系统的集中处，要么在节点的边界，要么在重要节点处。集中式放置的好处在于可以分析大部分进出的流量，但缺点也较为明显，无法监测小部分绕过集中节点的攻击。分布式策略中，IDS放置在系统的每个节点处，但是成本耗费极大。而混合式策略结合了前两者，在包括检测精度、能耗、计算成本等在内进行了权衡。

基于机器学习和深度学习的入侵检测

物联网入侵检测中产生的大量数据随着科技的发展，在传统的入侵检测中逐渐无法有效处理而变为冗余数据。随着计算能力的成本不断降低，研究人员现在为了充分利用这些数据的价值，可以很容易地将机器学习、强化学习和深度学习地技术在商业上应用于物联网设备上。基于这种数据驱动技术的入侵检测系统主要分为三类：基于机器学习的IDS按其细分(决策树，支持向量机，朴素贝叶斯，K近邻，随机森林)，基于深度学习的IDS(人工神经网络，卷积神经网络，循环神经网络)和基于层的IDS系统(感知层，网络层，应用层)[7]。

本文针对人工智能相关检测技术的分类标准主要分为以下几点：

首先，这种检测方法是否应用了数据预处理，例如归一化，降维等。

第二，这种检测方法是否使用定制数据集，而不是使用现有数据集，如NSL-KDD, KDD99和UNSW-NB15。

第三，底层的结构是否涉及许多神经网络层，是否可以解释，对于人类来说，其输出是否可读。

最后，底层检测模型对试图扰乱训练过程功能的对抗性攻击是否有弹性。

在集中式IDS中，模型通常利用服务器(可以是云中、雾中，甚至是本地网络中的集群节点)对入侵数据进行学习，从而使入侵检测模型更好。传统的机器学习方法，例如有监督和半监督学习适合检测已知的攻击，并在数据集中标记。若是出现0day攻击，则使用深度学习或无监督学习的效果更好。因为深度学习的检测方法更适合处理非标记数据，通过创建数据的抽象表示进行学习，使得模型能自动提取特征，自行确定检测精度[8]。

在分布式IDS中，通常是不仅将物联网系统分布化，在检测计算中也要分布化。由于模式匹配在检测过程中是一项占用CPU时间和内存密集的任务，因此曾在Myers算法[9]中使用MapReduce实现，在多核CPU上平均速度比串行检测提高了4倍以上。之后支持向量机，DBN的方法也加入，以剔除不相关的特征，解决维数问题，并降低误报率。分布式GAN网络也在分布式IDS中发挥作用，以便在对核心部件依赖性最小的边缘区域中检测入侵。

总结与展望

从苹果的Siri，微软的Cortana，亚马逊的Alexa到谷歌Photos，从Spotify到Grammarly，几乎没有与消费者相关的商业案例不是由机器学习、深度学习技术来检测入侵的。而目前可解释性是物联网中现有的基于深度学习的入侵检测方法的一个主要挑战。局部可解释性主要关注于解释每个个体的预测和个体特征之间的关系。全局可解释性研究深度学习在检查模型概念时如何运作。诸如局部可解释模型未知解释(LIME)和SHapley附加解释(SHAP)等技术可用于此目的。因此，本文相信，将可解释人工智能(XAI)的技术集成到未来的入侵检测中可使物联网系统的入侵检测能力达到新的高度。

参考文献

[1] Dave Evans. The Internet of Things: How the next evolution of the internet is changing everything. Cisco Internet Business Solutions Group (IBSG), 2011

[2] Bruno Bogaz Zarpelão, Rodrigo Sanches Miani, Cláudio Toshio Kawakani, and Sean Carlisto de Alvarenga. A survey of intrusion detection in Internet of Things. Journal of Network and Computer Applications, 84:25–37, 2017

[3] Hui Wu, Haiting Han, Xiao Wang, and Shengli Sun. Research on artificial intelligence enhancing Internet of Things: A survey. IEEE Access, 8:153826–153848, 2020.

[4] Ansam Khraisat and Ammar Alazab. A critical review of intrusion detection systems in the Internet of Things: techniques, deployment strategy, validation strategy, attacks, public datasets and challenges. Cybersecurity, 4(1):1–27, 2021

[5] J. Vacca, 2013. Computer and Information Security Handbook. Morgan Kaufmann, Amsterdam, 2013

[6] H. Liao, C. Lin, Y. Lin, and K. Tung, “Intrusion detection system: a comprehensive review”, Journal of Network and Computer Applications, 36 (1), 16-24, 2013

[7] Tariq Ahamed Ahanger, Abdullah Aljumah, and Mohammed Atiquzzaman. State-of-the-art survey of artificial intelligent techniques for IoT security. Computer Networks, page 108771, 2022

[8] Tran Viet Khoa, Yuris Mulya Saputra, Dinh Thai Hoang, Nguyen Linh Trung, Diep Nguyen, Nguyen Viet Ha, and Eryk Dutkiewicz. Collaborative learning model for cyberattack detection systems in IoT industry 4.0. In 2020 IEEE Wireless Communications and Networking Conference (WCNC), pages 1–6. IEEE, 2020.

[9] Monther Aldwairi, Ansam M Abu-Dalo, and Moath Jarrah. Pattern matching of signature-based IDS using Myers algorithm under MapReduce framework. EURASIP Journal on Information Security,2017(1):1–11, 2017

中国保密协会

科学技术分会

长按扫码关注我们

作者：潘泊凡

责编：向灵孜

2021年精彩文章TOP5回顾

近期精彩文章回顾