随着各类丰富的移动应用普及, 可以预见, 未来的无线通信系统将需要满足更为苛刻的服务要求, 为无线通信技术的发展带来挑战. 另一方面, 大数据在众多领域的应用取得了令人瞩目的成功. 大数据如何赋能无线通信成为学术界和工业界关注的焦点. 本文是作者团队对所承担的国家自然科学基金“无线通信大数据基础理论与技术研究”重点项目群的研究和实践结果的总结. 具体地, 首先分析了无线大数据的来源和特征, 然后构建了与之匹配的无线知识学习范式、智能无线网络框架以及跨地域、跨机构、多用途、一体化的无线大数据平台, 最后提出并验证了基于大数据的无线传播环境分析、无线传输以及无线接入技术, 从而为基于大数据的无线通信技术的进一步发展提供基础理论支撑和应用范式.基于大数据的无线通信技术
梁应敞, 谭俊杰, 龚晨, 张四海, 朱近康, 徐正元, 李云洲, 钟晓峰, 周世东, 张倩倩, 曹阳, 葛君刚, 杨刚
中国科学: 信息科学, 2021, 51(11): 1946-1964(识别二维码或点击下方阅读原文,可免费下载全文PDF)
过去20年, 大数据的应用在计算机视觉、自然语言处理等领域取得了令人瞩目的进展, 颠覆性地改变了人们的生活. 与此同时, 移动通信系统也从第三代(3G)演变到当前的第五代(5G), 其速率、时延和网络容量等网络服务质量指标有了质的提升. 可以预见, 为了适应越来越丰富的移动应用和庞大的流量需求, 未来的移动通信系统将需要满足更为苛刻的要求, 这为系统设计带来挑战[1]. 应用大数据是否能够为无线通信带来增益, 以及如何设计基于大数据的无线通信技术得到了学术界和工业界的广泛关注.
事实上, 作为传输信息的管道, 无线通信系统需要持续地处理海量数据, 其丰富的数据资源为大数据技术提供了充分的应用条件. 这些在无线通信中产生并能够服务于无线通信的海量数据被称为无线大数据[2]. 回顾传统的无线通信技术, 它们只依赖于专家知识所构建的普适模型, 提供在广泛场景下的性能鲁棒性, 但无法利用特定场景的特征来获得进一步的性能增益[3,4]. 为了解决这一问题, 数据驱动的无线通信技术成为了必然的选择. 原理上, 通过直接挖掘无线大数据中蕴含的规律, 可以得到比普适模型更符合真实通信环境的模型, 从而帮助系统作出更优的决策或判决. 然而, 无线通信系统的固有特殊性使得无线大数据也具有分布式、高时效、强异构的特征, 导致传统的大数据处理方法难以直接应用. 因此, 有必要开展无线大数据的基础理论研究, 通过研究无线大数据的特征, 提出适应无线通信需求的大数据分析和应用范式, 并揭示无线大数据的潜力.与此同时, 人工智能在计算机视觉、自然语言处理等众多领域的成功应用, 使得智能无线通信技术成为了当前的一大研究热点. 事实上, 智能无线通信技术与本文所关注的基于大数据的无线通信技术既有紧密联系也有区别. 一方面, 人工智能与无线大数据是相辅相成、难以分割的, 这是因为人工智能是分析和应用无线大数据的有效手段, 而无线大数据则为人工智能的应用提供了数据来源和平台基础. 但另一方面, 二者的侧重点有所不同: 智能无线通信技术强调人工智能在无线通信中的应用方法[3], 而基于大数据的无线通信技术则是从收集、管理和应用无线大数据的角度展开研究的.本文对过去4年来我们在基于大数据的无线通信技术的研究进展进行了概述和总结. 通过研究无线大数据的基础理论, 包括无线大数据的特征、无线知识学习范式、智能无线网络框架, 提出了新型的无线大数据平台架构, 总结了无线大数据在无线传播环境分析、无线传输理论方法以及无线接入技术的实践经验.
2.1 来源及特征
在计算机学科中, 大数据是指一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合, 具有大量化(volume)、多样化(variety)、快速化(velocity)、价值密度低(value)这“4V”特征. 而无线大数据则是大数据在无线通信领域中的具体实例, 包括物理层的频谱信息、网络层的流量数据, 甚至应用层的用户行为记录等. 相应地, 无线大数据的来源非常广泛, 从数据生产者的角度大致可以分为终端、无线通信运营商以及无线应用.
● 终端: 终端包括各种需要进行无线通信的设备, 如手机、平板、传感器等. 一方面, 取决于终端需要完成的具体任务, 它们会产生大量的应用层数据, 如位置信息、传感器的探测信息等. 另一方面, 终端在完成数据传输的过程中也会产生大量相关数据, 如信道状态信息(channel state information, CSI)、各基站信号强度等.
● 无线通信运营商: 运营商不但负责收发终端发送或请求的数据, 也需要将数据从接入网汇聚到核心网并最终连接互联网. 在这一过程中, 通信设备会产生大量的数据, 除了终端回传的信息外, 也包括对终端收发数据的流量日志、计费信息、深度报文解析(deep packet inspection, DPI)等[5]. 此外, 各通信设备也会不断汇报其运行状态、负载等网络运维数据.
● 无线应用: 无线应用是用户与终端直接交互的场所, 它们记录了用户个性化的数据, 例如用户的位置信息、社交网络、对某些服务的使用频率等.
以上来源于真实环境的数据通常会含有用户或者商业上的敏感信息, 而获取这些数据门槛较高. 无线大数据的另一种来源是在实验室环境的测试或仿真. 这类实验室数据虽然并非来源于真实无线网络环境, 但是也能反映无线网络中的某些实际规律. 同时, 它们大幅降低了数据获取门槛, 是研究无线大数据过程中不可或缺的部分. 无线大数据除了具有“4V”特征之外还具有无线环境带来的特殊特征.● 分布式: 无线通信系统具有天然的分布式特性, 其中的各个独立的实体自行产生大量数据. 同时, 无线通信链路的有限容量也不允许将各个分布实体上的所有数据进行完整采集和集中储存[6].● 高时效: 在无线通信中, 无线环境和用户需求等因素快速变化. 为了保证数据的准确性和处理结果的价值, 采集和处理无线大数据都有较高的实时性要求.● 强异构: 系统中不同实体分布式产生的数据可能差异较大, 例如, 运营商生成的用户账单和终端处采集到的信道状态记录就具有完全不同的格式和时间尺度. 即便对于同一运营商的设备, 它们的软硬件差异也会导致数据的异构性. 此外, 不同实体所产生的数据可靠性也不同[7]. 一般来说, 运营商内部采集的数据可信度比较高, 而终端上传的数据则可信度较低.
2.2 无线知识学习范式
为了度量无线大数据的作用, 文献[8]提出使用“无线知识熵”这一指标. 设有无线事件A和B, 其相似度记为SB/A, 则当A的知识量已知时, B相对于A的无线知识熵定义为
由式1可知, 若B和A完全相同, 则二者的知识熵为0. 换言之, 当无线大数据所含有的知识量足够大时, 系统中的所有随机无线事件将能够被完美预知. 发挥无线大数据的最大价值就是通过提取无线大数据中的有效知识最小化无线通信中特定无线事件或给定任务的知识熵, 这一过程被称为无线知识学习.
图1展示了一种基于特征变量的无线知识学习范式, 其中包括用户群聚(user grouping)和任务计算(task calculation)两个部分. 在用户群聚中, 海量用户的服务需求通常会在多个维度上存在相关性, 因而可以根据群聚变量将所有用户的服务需求聚类到少数几个用户群的数据模型中, 将通信方式从针对单个用户转变为面向群体用户. 为了适应无线大数据的分布式特征, 这一过程只需要选择合适的特征变量作为群聚变量, 以用户自身数据来计算用户需求相似度, 能够降低数据收集和处理的开销. 任务计算负责基于任务变量为每个分群实现任务的具体执行, 目标是最小化资源开销. 任务变量可以是信息内容、信道衰落、不同蜂窝接入容量等特征变量.
2.3 智能无线网络框架
实现无线网络的智能化不仅需要从无线大数据中学习和提取知识, 还需要对网络资源进行高效利用, 这就要求网络有足够大的资源调度自由度. 特别是随着蜂窝基站的密集部署以及不同制式网络的演进, 无线网络逐渐变成复杂的异构网络, 使得每个终端都同时被不同制式、不同基站的信号所覆盖. 这些异构的网络之间是相对独立的, 它们不但无法弹性地共享资源也无法交互信息. 为了打破不同网络之间的固有屏障, 文献[7]提出了一个协作框架, 利用无线大数据、人工智能、软件定义无线电(software defined radio, SDR)和软件定义网络/网络功能虚拟化(software defined networking/network function visualization, SDN/NFV)将异构无线网络转变为协同的智能无线网络, 如图2所示.
在这一架构中, SDN将原有异构的无线网络的控制面和数据面进行了分离, 将所有网络单元的控制面进行了整合, 打通了分离的设备之间的信息交互通道, 为采集无线大数据和下发决策指令提供了基础. 在SDN之上, NFV将网络单元的计算、储存等物理资源进行了整合以及按需调度. 类似的, SDR对异构网络所拥有的频谱、功率等空口资源进行了整合. 基于NFV和SDR, 网络和空口资源的调度都有了极大的自由度, 能够根据用户的需求动态地为各个网络或者通信任务划分资源切片. 为了让所有用户能够在任何时刻都得到其预期的服务质量, 智能无线网络需要持续地对用户、网络和资源切片作出最优映射决策, 这就需要利用人工智能(artificial intelligence, AI)方法对无线大数据进行分析, 并对通信需求、流量等动态因素进行精确预测, 从而实现智能无线网络中的用户认知接入(cognitive access)和资源智能分配(smart allocation)两个必要功能. 此外, 这一框架创新性地提出了处理无线大数据的在线–离线双层引擎. 具体地, 部署在远端云服务器的离线引擎用于分析和提取复杂和海量数据中的知识, 而边缘侧的在线引擎负责整合离线引擎的处理结果并根据环境特征进行少量更新. 利用在线引擎, 边缘侧的各实体能够对无线环境作出快速响应, 从而满足了无线大数据的高时效特征.
无线大数据平台负责数据的采集、清洗、存储、共享以及分析, 是支撑挖掘和利用无线大数据的关键要素. 由于无线大数据具有海量、分布式以及强异构等特征, 无线大数据平台的建设需要考虑其特征作出相应的设计. 特别地, 无线大数据的强异构特征决定了其来源广泛而且拥有权高度多样化, 因而设计无线大数据平台时需要考虑计算和数据资源的解耦, 并严格控制数据的分级访问权限.
图3展示了一种典型的无线大数据平台架构图, 主要包括门户、代码和资源三大子系统. 其中, 门户子系统主要提供公开数据集的展示(如数据集简介和切片下载)、计算平台入口以及分析结果展示; 代码子系统提供交互式编程和交互式数据分析, 用户可采用各类编程语言在线编写和共享代码, 并调用资源子系统中的数据和计算资源集群进行远程的数据访问和计算; 资源子系统是一个分布式的集群系统, 支持数据分布式存储和跨地域异构计算能力, 从而能够在保持数据独立性的前提下为多方提供处理数据的能力.
在开展研究过程中, 我们基于图3构建了统一的无线大数据平台, 各平台参与方可以便捷、高效和安全地共享自身的优势数据和计算资源. 此外, 响应学术界对推进数据与代码共享的提倡, 这一平台将持续进行资源扩充和开发, 目标成为国内重要的无线大数据资源共享平台(平台链接: https://wbd.ustc.edu.cn/gxpt/list.htm), 进一步促进国内无线大数据研究. 在无线大数据平台的支撑下, 各方得以在无线传播环境分析、无线传输理论方法以及无线接入技术这3个重要课题上开展大量研究.
4.1 信道建模与获取
进入5G及后5G时代, 无线通信面临高确定性、低延时、高谱效等新需求的挑战, 高效利用和改造无线信道成为无线通信进一步变革的突破点之一. 研究CSI与无线传播环境之间的影响机理, 通过CSI感知无线传播环境, 利用无线传播环境信息改进CSI的可预测性, 是高效利用和改造无线信道的主要思路. 采用机器学习的方法从无线大数据中挖掘具体无线传播环境与CSI之间的相关性能够帮助构建新型信道模型, 最终获取复杂无线环境下的CSI. 为了探索具体环境下的CSI与无线传播环境的相互关系, 首先开展了无人机场景的信道测量与建模, 以及毫米波信道的参数提取工作.
文献[9]考虑了无人机(unmanned aerial vehicles, UAV)通信中的信道建模问题. 当UAV信道存在高层建筑等遮挡物体时, 其大尺度路径损耗主要由非视距(non line-of-sight, NLOS)因素决定. 因此, UAV信道的大尺度路径损耗模型由信道是否为视距(line-of-sight, LOS)以及相应的出现概率决定. 这一概率可以通过马尔科夫(Markov)链模型进行建模, 并用实测数据学习得到其具体值. 文献[10]针对毫米波信道也提出了基于聚簇的大尺度路径损耗模型. 首先, 由旋转定向天线构成的虚拟天线阵列测量出全向信道冲激响应, 然后通过高精度多径提取算法分离出每一条径的时延、波达角(angle of arrival, AoA)和发射角(angle of departure, AoD). 鉴于时延域和角度域相近的多径会对信号产生相似的信道响应, 聚类算法可以将多径聚类为簇, 便于之后基于簇的信道建模和分析. 图4(a)展示了聚类算法将多径划分成簇的结果, 而图4(b)则展示了在28 GHz频点的典型办公室NLOS场景下接收能量最强的3个簇的路径损耗模型.
除大尺度路径损耗模型外,文献[11]进一步地提出了层析信道模型, 其基本思想是将信道分成静态(路径损耗、阴影衰落等)、动态(相对运动导致)和 扰动(随机物体产生的散射、反射等) 3种分量并分别处理. 例如, 信道的静态分量可以直接对历史CSI求均值得到, 而CSI中的动态分量可以从接收机位置传感器回传的相对运动状态推算得到. 最终, 将静态、动态和扰动分量合并即可获得当前CSI. 图5(a)和(b)分别展示了在室内外场景下估计CSI的归一化均方误差和导频数量的关系. 此外, 使用层析模型还能够根据一个频段的CSI推测另一频段的CSI, 这是解决频分双工系统中上下行链路的互易性问题的可行手段[12].
4.2 物理环境推理
基于物理环境与无线信道之间存在的紧密关系, 除了可以利用物理环境特征帮助建模和获取信道外, 信道信息同样也可以用于推理和分析物理环境的特征. 在这一方面, 文献[13]提出了基于接收信号强度(received signal strength, RSS)的三维障碍物地图构建方法, 而文献[14]则研究基于信道特征的信号源定位问题. 在文献[13]中, 用于构建三维障碍物地图的数据来源于多个地面用户所接收到的蜂窝基站信号的RSS信息. 取决于障碍物是否存在, 不同用户接收到的信号可能来源于NLOS径或LOS径. 一种无监督的分类方法被提出用于分辨用户链路的类别. 对于NLOS径, 其障碍物高度可以通过参数估计得到. 最后, K最近邻(K-nearest neighbor, KNN)算法被用于预测和补全地图上用户稀疏性造成的缺失值.
图6(a)和(b)分别展示了原始和重构得到的三维障碍物地图. 在文献[14]中, 多输入多输出(multi-input multi-output, MIMO)信道的角度域和时延域信息作为指纹特征被用于定位信号源. 具体地, 一个多层的卷积神经网络(convolutional neural network, CNN)以分类和回归两种模式学习从指纹特征到信号源坐标的映射关系.
从图7(a)的定位效果可以看出, 所提方案相较于传统Two-stage[15]方法能够有效提高定位精度, 并且图7(b)也说明了该方案能够明显降低计算开销.
信号检测需要从经过信道畸变的接收信号中恢复出发送信号, 是一个典型的分类问题. 经典的信号检测算法是在一般性的信道和信源假设下推导出判别公式, 无法利用实际信道或信源的特征来提高检测性能. 因此, 直接从数据中学习最优的信号检测器无疑是一种更好的替代选择. 在可见光频段中, 由于光波的方向性较强, 终端接收到的信号对于物体遮挡和终端移动非常敏感, 能否充分利用信道特征成为在光通信中提高信号检测准确率的关键因素. 文献[16]以二阶环境物体反射的极弱接收信号场景为例, 通过采集0/1符号下的接收信号波形并输入支持向量机(support vector machine, SVM)直接训练学习得到非线性接收信号波形与发送符号之间的关系. 结果表明, 相比于高斯逼近(Gaussian approximation)的信号检测, 基于SVM的信号检测器具有更低的错误检测概率. 进一步地, 文献[17]将双向长短期记忆(bi-directional long-short term memory, BiLSTM)神经网络用于提高非线性系统0/1符号检测性能.
图8展示了接收终端位于桌子下方时借助环境二阶反射时使用不同信号检测方法 得到的误码率(bit error rate, BER). 可以看出, 在没有硬件预均衡的条件下, 基于BiLSTM的方法得到的BER最低; 在有硬件预均衡的条件下, 传统用于对抗系统非线性的Volterra级数均衡方法得到的BER最低.
此外, 文献[18]以环境散射通信(ambient backscatter communication, AmBC)为例也说明了数据驱动的信号检测方案的优势. 在AmBC系统中, 反射设备通过将信号调制到环境中的射频信号上传输信息. 由于接收机难以获得环境信号的导频信息进行信道估计, 在接收端恢复反射设备的发送信号是一项具有挑战性的任务. 传统的非相干检测方案, 如能量检测(energy detection, ED), 会因为反射链路远弱于直射链路而产生严重的性能衰减[19]. 为了解决这一问题, 文献[20]提出了共生无线电的概念, 通过将射频源系统与反射传输系统建立合作, 实现高可靠反向散射通信. 文献[18]提出了一种依赖发送数据本身的半盲信号检测方法. 具体地, 射频源将自身调制方式告知反射设备及其接收机, 反射设备在传输数据之前会发送两个接收端已知的标签数据, 然后接收机将接收到的信号与标签数据共同进行聚类分析, 最终根据标签匹配各类别并恢复出反射设备的发送信号. 这一方法称为CL-LUS (constellation learning with both labeled and unlabeled signal)算法.
图9对比了CL-LUS和其他几种算法在不同直射链路和反射链路相对 信噪比(signal-to-noise ratio, SNR)下的BER性能, 包括ED、已知信道下的最优检测(optimal detection, OD)、传统的Standard GMM-based EM聚类算法[15]以及CL-LS (constellation learning with labeled signal)算法. 其中, CL-LS算法和CL-LUS算法类似, 但仅利用了标记信号来聚类和反推出信号检测模型中的未知参数并据此恢复未标记信号. 可以看到, CL-LUS算法的性能远优于ED和传统聚类算法, 并且也好于CL-LS算法. 这说明了CL-LUS算法能够利用待检测信号中存在的隐含相关性提高检测性能.
5.2 自适应调制编码
自适应调制编码(adaptive modulation and coding, AMC)是一类根据无线信道状态来动态调整调制和编码方式的传输方法, 以使得通信链路可以持续获得可靠的最大通信速率. 显然, AMC的效果取决于对无线环境的感知和追踪, 例如来自其他设备的同频干扰. 那么利用无线环境的历史数据是否可以帮助AMC提升性能呢? 文献[21]回答了这一问题.
文献[21]考虑了一个认知异构网络, 其中存在主用户和次用户两类用户. 理想情况下, 次用户接入频谱时需要保护主用户, 即只有在感知主用户没有在传输时才会发送信息. 然而, 实际上频谱感知存在误差, 次用户可能会错误地在主用户传输时接入同一频谱进行传输, 对主用户产生干扰. 由于次用户的传输时间晚于主用户的传输时间, 所以主用户不能及时测量到干扰信息, 并调整传输策略. 为此, 深度强化学习(deep reinforcement learning, DRL)被提出用于分析次用户对主用户的干扰规律并预测干扰, 从而自适应地调整调制编码方案, 提高主用户的传输速率.
从图10(a)的仿真结果可以看出, 在干扰缓慢变化的情况下, DRL可以使主用户的传输速率接近完美知悉干扰情况的最优性能, 且比其他算法高50%~100%. 当干扰快速变化时, DRL的性能略差于最优性能但相比其他算法仍有相当大的性能优势. 这证明了数据驱动的AMC可以更好地学习无线环境的动态性并通过预判环境变化调整传输策略.
5.3 波束赋形
波束赋形技术利用了多天线发送信号叠加特性, 通过调整不同发射天线的相位和幅度使得特定方位的接收信号得到相长或者相消. 在蜂窝网络如今普遍采用相邻蜂窝全频谱复用的情况下, 干扰环境下的协同波束赋形是一种极具前景的方案, 它通过联合设计多个基站的波束赋形矢量抑制蜂窝间干扰并提高系统整体性能[22,23].显然, 让整个蜂窝网络中的所有基站进行协同波束赋形最直接和传统的方法就是在搜集全局CSI后执行集中式 优化算法求解得到每个基站的波束赋形矢量. 然而, 这类集中式优化算法往往存在计算复杂度极高的问题, 并且在实际系统中也难以及时获得全局CSI. 为了避免以上问题, 文献[24]提出了数据驱动的分布式波束赋形方案, 利用DRL让每个基站能够不断地观测和分析自身无线环境数据并据此自适应地调整波束赋形矢量, 有效地降低了基站决策所需的信道信息数据量以及计算复杂度.
图11展示了所提方案的仿真结果. 其中, 从图11(a)可以看出, 基于DRL的分布式波束赋形方案在学习过程中不断改善决策策略, 性能优于贪婪策略和随机方案, 并取得了接近传统集中式分式优化(fractional programming, FP)算法的性能, 但仍存在一定差距; 而图11(b)则说明了, 通过提高决策的精细程度(图中括号内两个数字分别代表在功率和波束方向的决策精度,数字越大表示相应的决策精度越高), 所提方案能够逼近传统集中式优化算法的性能.
6.1 多址接入
作为未来无线通信的重要构成部分, 机器类通信(machine type communications, MTC)具有数据包短和海量接入的特点, 这与传统的语音和数据业务有极大不同. 因此, 如果在MTC中依旧采用诸如时分或频分等传统的正交多址接入方式会使得稀缺的频谱资源面临严峻挑战. 幸运的是, 具有相似特征的MTC设备所发送的巨量小数据通常具有比较高的内容相关性. 为此, 文献[25]从无线大数据的角度出发, 基于数据包的相关性提出了集群多址接入. 具体地, 所有MTC设备会被聚类算法分成众多具有相似特征的集群. 对于归属同一集群的MTC设备, 它们的历史发送数据被用于分析其数据包发送模式, 并据此预测出不同设备的数据包发送顺序. 接着, 通过延迟数据包传输调整数据包发送顺序, 使得集群内的MTC设备在同一时刻发送相同的数据包, 从而不但节省了无线资源也提高了频谱效率.
图12展示了所提算法的示意图, 其中图12(a)展示了3个终端用户在不同时刻的数据包相关性(颜色相同表示相关), 图12(b)则给出了调整传输顺序后的结果, 可以从中看出这一多址接入方案能够有效地节约时间开销.
6.2 动态频谱接入
频谱是承载无线信号最宝贵的资源, 而频谱固定分配是目前无线通信系统使用频谱最为广泛的方式. 然而, 由于用户流量存在空时差异特性, 固定分配的频谱无法根据系统实际负载进行伸缩, 降低了频谱利用率和网络整体接入容量. 针对频谱固化产生的问题, 能够支持动态接入频谱的认知无线电技术近年来得到了广泛关注[26].
在接入频谱之前, 无线通信系统首先需要对频谱进行精确感知, 即识别频谱是否正在被其他系统占用, 以免对其他正在传输的系统造成干扰. 传统的频谱感知方法通过单一、固定的特征进行检测, 其性能受到SNR墙等因素限制. 此外, 这些传统方法是基于模型推导的, 而在实际环境中很难对信号进行精确的统计建模. 为了解决以上问题, 文献[27]提出了数据驱动的智能频谱感知方案, 借助深度学习(deep learning, DL)技术从原始频谱数据发掘深层特征. 具体来说,卷积神经网络(CNN)被用于处理接收信号的协方差矩阵并得到检测统计量. 在离线训练中, 从训练数据可以训练得到检测统计量, 并依据所需的误警或检测概率搜索得到相应的检测阈值. 在训练完成后, 得到的神经网络可以从未知的接收信号中提取相应的检测统计量并根据阈值实现在线检测.
从图13的接收者操作特征(receiver operating characteristic, ROC)曲线可以看出, 无论发送信号服从独立同分布(图13(a))还是存在相关性(图13(b)), 这一智能频谱感知方案性能远远优于传统算法, 如最大特征值检测(maximum-eigenvalue detection, MED)、盲合并能力检测(blindly combined energy detection, BCED)、 协方差绝对值(covari-ance absolute value, CAV)算法, 并且逼近已知统计协方差矩阵下理论最优的估计相关器(estimator-cor-relator, E-C)算法.
虽然频谱感知能够检测当前是否有信号正在传输, 但是它无法对频谱所承载的流量进行统计分析, 更难以相应地对频谱接入策略进行调整. 这在使用非授权频谱等具有公平接入要求的频谱时是极其重要的[28]. 文献[29]以LTE蜂窝系统动态接入非授权频谱为例研究了这一问题. 由于WiFi系统是目前使用非授权频谱的主要系统, LTE系统接入非授权频谱需要感知WiFi系统的流量并调节接入时间长度, 避免过多挤压WiFi传输时间导致WiFi系统服务质量下降. 具体来说, LTE系统采用轮询的方式接入频谱, 即周期性地感知、接入和释放频谱. 为了在保护WiFi系统服务质量的同时最大化LTE传输速率, DRL被提出用于从频谱观测数据(如空闲、繁忙时间长度等)推测真实WiFi系统流量并预测WiFi流量变化趋势, 从而能够对LTE系统的频谱接入时间进行自适应优化.
6.3 接入资源配置
无线用户的服务体验取决于系统能否及时地为用户提供所需资源. 然而, 无线通信系统的接入资源包含功率、时间、频谱, 甚至缓存等多域资源, 使得接入资源的配置问题是一个高维度的复杂决策问题. 此外, 无线通信普遍存在动态时变的无线环境和用户行为, 意味着捕捉系统动态需要由大量高实时性的信令交互作为支撑, 这也给高效地接入资源配置带来困难. 文献[30-32]尝试利用无线大数据中蕴含的系统动态 变化规律来降低信令开销, 从而高效地求解接入资源配置问题.
文献[30]提出了一个DL和DRL协作决策的蜂窝接入网资源切片调度机制. 具体地, DL分析和预测大时间尺度上的用户流量需求并提前配置资源到相应的切片. 由于业务需求在小时间尺度上的突发性明显, 作者进一步提出采用具有更高动态性的DRL进行小时间尺度的在线资源调度. 该在线资源调度方法具有较低的算法复杂度以及较快的收敛速度, 但是可能在初期迭代阶段会获得一些较差的策略, 并且出现不稳定的性能抖动. 因此, 可以通过调整DL和DRL所作决策的相对重要性提高决策精度和网络性能.
图14(a)展示了DL关于用户流量需求预测的误差直方图, 可以看出预测结果是直接且有效的. 从图14(b)可以看出, 与经典的Q学习等算法相比, 所提的智能资源调度策略(intelligent resource scheduling strategy, iRSS)可以持续稳定地对资源进行高效利用.
此外, 文献[31,32]基于DRL对接入资源进行配置. 其中, 文献[31]研究了蜂窝终端直通(device-to-device, D2D)网络中的频谱和功率配置问题. 鉴于频谱稀缺性, D2D设备通常需要复用有限的蜂窝频谱来进行通信. 因此, D2D设备需要对所使用信道以及发送功率进行精确的优化, 否则会产生相互间的强干扰. 这一联合信道选择及功率控制问题是一个复杂度极高的NP-Hard问题, 且需要在获得全局信道信息后才能求解. 为此, 作者提出一种分布式的资源配置框架, 让各个D2D用户自主地进行大数据分析以及资源配置决策. 在各个D2D用户上, DRL通过分析本地和历史信息, 从而学习到自身无线环境的变化规律并将其用于配置发送信道和功率. 与传统方法相比, 所提方法在运算复杂度和信令开销两方面都能取得良好的可扩展性. 文献[32]则研究了MTC中的非连续接收(discontinuous reception, DRX)自适应调整机制. DRX是一种周期性断开终端与基站连接以达到节能目的的机制. 鉴于MTC中的业务类型多样, 相应的特征和需求差异也非常大, 此时采用传统DRX机制会造成接入延迟长且能耗高. 为此, 作者采用DRL对DRX周期进行自适应调整, 使终端的休眠时间适配于多样化的业务模式. 具体地, 时间被分割成多个时间窗, DRL学习历史时间窗内数据流的统计规律, 然后在每个时间窗到来之初确定当前时间窗长度内采用的DRX周期, 并将这个DRX周期应用于当前时间窗内到达的所有数据流.
6.4 接入或切换控制
接入和切换都是指用户被多个基站(或接入点)的信号覆盖时选择一个基站进行接入的问题, 其区别是接入发生在通信连接建立之初而切换发生在通信过程中. 我们将这类如何在多个基站中选择基站进行连接的问题统称为接入控制问题. 在传统的接入控制机制中, 用户首先选择最强接收信号的基站, 没有考虑未来的链路质量及流量情况. 当基站部署得更稠密以及用户数量激增时, 传统的方法容易导致用户扎堆, 造成拥塞和服务质量下降. 因此, 需要考虑如何挖掘并利用用户的移动性及网络流量动态性来建立更好的接入控制机制[33,34]. 无线大数据为实现这一目标提供了可行途径.
文献[35]以UAV网络为例, 提出了一种能够预测未来链路状态并考虑长期收益的接入控制机制. 在UAV网络中, UAV基站的特定运动规律会导致网络环境动态变化. 为了在保证服务质量的同时减少不必要的切换, 用户需要对各个UAV基站未来的服务能力进行预测. 为此, 基于长短期记忆(long short-term memory, LSTM)神经网络的DRL算法被提出用于捕捉和预测用户接收信号强度和基站接入用户数变化. 除此之外, 文献[36]研究了毫米波超密集蜂窝网络中的用户接入控制问题. 在这种网络结构下, 用户的最强接收信号会频繁地在多个基站之间变动, 此时使用传统方法就会导致频繁切换和服务中断. 为此, 作者通过分析网络历史流量数据, 对网络中热点区域流量变化规律进行了合理建模, 然后在考虑用户服务质量的情况下使用置信区间上界(upper confidence bound, UCB)算法来进行基站选择, 整个接入控制方案又被称为SMART算法.
从图15中的仿真结果可以看出, 在不同的用户移动速度下, 所提出的SMART算法与基于传输速率(rate-based handover, RBH)以及基于SINR (SINR-based handover, SBH)的切换算法相比, 可以实现切换次数的有效降低, 并且在系统吞吐量上接近SBH算法.
为了进一步提高无线通信系统的接入性能, 用户接入控制也可以与接入资源配置一起进行联合优化. 文献[37]以三层异构蜂窝网络为例, 采用DRL来解决联合优化接入控制和资源配置时产生的决策空间维度爆炸的问题. 具体地, 网络中的所有用户将本地信息汇合并形成联合观测量, 使得用户在进行接入决策时可以对网络整体的动态变化进行预测. 与遗传算法等传统方法相比, 这一方案在系统容量、系统效能以及计算时间等方面均能体现出显著的性能优势.
本文总结和概括了我们在过去5年对基于大数据的无线通信技术的研究进展. 首先, 我们将无线通信中产生并能够服务于无线通信的海量数据定义为无线大数据, 并对无线大数据的来源和特征进行了总结. 然后, 为了适应无线大数据所具有的分布式、高时效和强异构特征, 提出了相应的无线知识学习范式和智能无线网络框架, 并构建了跨地域、跨机构、多用途、一体化的无线大数据平台. 最后, 总结了无线大数据在无线传播环境分析、无线传输理论方法以及无线接入技术的实践经验, 证明了大数据能够为无线通信带来显著增益, 同时能够为未来基于大数据的无线通信技术的进一步演进提供参考.
(参考文献: 略)
《中国科学:信息科学》| SCIENCE CHINA Information Sciences
及时报道计算机科学与技术、控制科学与控制工程、通信与信息系统、微电子与固体电子学等领域基础与应用研究方面的原创性成果.
英文版投稿: https://mc03.manuscriptcentral.com/scis
中文版投稿: https://www.scicloudcenter.com/SSI/login/index
快速访问: http://scis.scichina.com/