无人机污染源自主搜寻算法综述
李中国, 陈文华, 刘存佳. 无人机污染源自主搜寻算法综述. 中国科学: 信息科学, DOI: 10.1360/SSI-2022-0044
无人机可以被用于广泛的搜寻场景, 包括山地、城区、海洋、火山、丛林等复杂环境. 除去无人机本身外, 构建搜寻平台还需要传感器、数据处理器、控制决策等多个模块.
实现自主搜寻需要涉及数据采集、传感器融合、环境感知和路径规划等多模块功能的协作. 传感器的选择取决于待搜寻源头的属性, 包括化学、生物、辐射及核物质 (chemical, biological, radiological and nuclear materials, CBRN). 一般来说, 采集的数据往往包含大量噪声, 甚至在极端情况下无法采集到有效的污染物浓度信息.
为了应对数据噪声和不确定性所带来的棘手挑战, 当前研究主要从两方面着手:硬件配置与算法设计.
在硬件方面, 受到无人机负载和续航方面的限制, 通常搭载较为轻便简易的传感器. 传感器安装过程中, 除了要考虑复杂环境、污染物类型等一系列因素外, 还要考虑到无人机自身所带来的局部湍流.
具体实施过程中, 有单平台多传感器 (multi-sensor single platform) 和多平台多传感器 (multi-sensor multi-platform) 两类策略. 然而, 复杂多模态传感器网络给数据融合与轨迹规划带来诸多前所未有的新挑战.
在算法方面, 经典的搜寻策略包括化学趋向性 (Chemotaxis) 和风趋向性(Anemotaxis), 此类方法主要受生物行为的启发. 另一类典型的算法是从信息理论的角度出发的信息熵趋向性 (Infotaxis), 旨在收集更多环境和污染物信息, 又称信息路径规划 (informative path planning, IPP).
随着计算能力和智能控制领域的突飞猛进, 最近的文献中出现了一些全新的算法设计思路, 典型的代表包括双重控制 (dual control for exploration and exploitation, DCEE) 和主动学习 (active learning).
近年来, 基于信息理论与控制理论的智能算法受到广泛关注, 也在自主搜寻方面取得突破性进展. 本文归纳出两大类搜寻任务 (污染源定位和边界跟踪) 以及相应算法, 如图1所示. 需要特别强调的是本文涵盖了双重控制和主动学习方面的相关工作, 填补了现有综述文献在自主搜寻算法方面的缺失与不足. 同时, 基于该领域的最新突破, 本文将提出自主搜寻方面的挑战、未来的研究方向和展望.
一般来说, 无人机搜寻任务采用分层控制和决策 (hierarchical control and decision-making), 主要特点是无人机底层控制和上层决策相互分离. 自主搜寻的相关研究主要聚焦在上层决策, 一般假设底层控制能够及时且准确地完成上层给定的跟踪目标.
考虑到本文的焦点不在无人机平台硬件方面, 所以对无人机类型仅作简要介绍. 综合经济成本、便捷性和安全性等多方面因素考虑, 用于自主搜寻任务的机体多为小型无人机, 一般不超过25kg (包括电池、传感器、控制设备等).
无人机一般分为旋翼无人机 (rotary-wing drones) 和固定翼无人机 (fixed-wing drones). 尽管固定翼无人机产生的额外湍流干扰较小, 但需维持高速飞行, 往往不能兼顾传感器的采样时间. 旋翼无人机会引入较严重的局部湍流, 这会严重影响传感器采集数据的准确性 (对于通过大气传播的化学污染物尤甚). 旋翼无人机可短暂停留在采样位置以增加数据的准确性, 所以在自主搜寻中较为常用.
常见的污染物扩散环境为大气和海水表面. 通过大气传播的应用范围更为广泛, 例如工业气体监控、搜救、火灾、火山灰及核污染物追踪等, 后者涉及的应用包括海洋油田泄漏监控、边界跟踪、海洋环境保护等.
大气污染物扩散的建模分析一直以来都是颇具挑战的问题. 扩散模型的选择需要根据精度要求、算力、颗粒物属性等多方面因素决定. 对于化学污染物, 常用的模型包括高斯烟羽模型 (Gaussian plume, GP), 计算流体动力学 (computational fluid dynamics, CFD) 等.
受局部气流干扰影响, 大气中化学颗粒的扩散极为复杂, 因此呈现出高不确定性和难预测性. 各向同性扩散模型 (isotropic plume) 因其计算效率高又包含明确物理参数, 在诸多经典搜寻算法中得到广泛应用.
在自主搜寻方面也有一些算法不依赖于扩散模型, 典型的无模型算法包括极值搜寻 (extremum seeking), 此类算法采用梯度信息实时更新控制策略对目标函数进行优化.
事实上, 传统的化学趋向性算法也属于无模型算法, 它的本质是利用浓度梯度逼近最大含量位置. 此类无模型算法的鲁棒性与性能在复杂环境中的表现往往不尽如人意, 主要原因是梯度消失和梯度干扰问题.
不过近年来, 出现了一些研究尝试结合有模型和无模型算法,相关结果表明两者结合能够有效提升搜寻任务的成功率和性能.
由于小型无人机载重、续航和成本限制, 机载传感器一般较为轻便简易, 受环境和自身噪声干扰明显. 根据污染物类型的不同, 相应的传感器也可分为化学、生物和辐射三类, 尤其化学和辐射传感器较为常用.
目前, 许多研究逐步增加数据采集的类型, 不仅包括浓度传感器, 也为无人机配备其他感知模块, 如风速风向传感器、雷达及图像传感器等. 此类基于多模态多传感器的搜寻平台部署成本高昂、计算复杂、延展性和灵活性较差, 但在复杂场景中能够收集和利用更多环境信息, 已有文献给出了较为完备的综述.
本文主要讨论基于浓度传感器的搜寻策略. 由于环境干扰、传感器噪声等因素影响, 浓度读数包含随机噪声. 在污染物浓度较低的情况下, 传感器可能无法检测到任何浓度信息. 在自主搜寻文献中通常将传感器浓度表示为
本文用向量
事实上, 现有文献大多将源参数估计和跟踪问题区分开来. 前者指的是通过路径规划和浓度测量重构污染源参数信息 (如释放速率、位置信息等); 后者指的是规划路径使得无人机接近污染源位置并进行跟踪.
从本质上说, 重构污染源信息是参数估计的过程, 而污染源跟踪属于控制问题. 相应地, 这导致了两种独立的决策思想: 信息驱动策略和控制驱动策略. 也正是这种分类方式使得现有搜寻算法或偏向于纯利用、或偏向于纯探索.
图2整合了双重目标驱动的搜寻任务, 决策过程需同时考虑参数估计和追踪两个子任务的性能指标. 无人机的下一步位置直接决定了将要采集到的数据,而这些含有噪声的数据 (位置与浓度) 又将影响源参数估计和跟踪的性能指标.
控制策略一般构建物理意义明确的性能指标, 如跟踪误差, 并通过优化该指标驱动无人机完成相应的任务. 因此, 在早期文献中这类算法也被称为任务驱动型策略 (task-driven methods).
总的来说, 控制相关的算法既包含了传统的反应式策略 (reactive strategy), 也涵盖了自适应算法 (adaptive strategy). 前者的经典例子有Chemotaxis和Anemotaxis;而自适应类控制算法包括模型预测控制 (model predictive control, MPC)、自适应极值搜索 (extremum seeking, ES) 等.
总体来说, 控制驱动策略目标在于将无人机移动到污染源位置. 实现这一控制目标既可通过启发式梯度下降算法 (如Chemotaxis 和极值搜索) 亦可通过估计污染源位置为无人机提供跟踪参考 (如自适应极值搜索和MPC). 两者都体现了对已知信息的完全利用: 前者利用当前梯度测量或梯度估计 (存在噪声); 后者利用现有污染源的位置估计 (存在不确定性). 受噪声与不确定性影响, 纯利用搜寻算法的性能与鲁棒性广受质疑.
信息驱动策略的本质在于选择最优决策实现对特定信息测度的最优化. 常用的信息测度包括方差、信息熵、KL 散度 (Kullback–Leibler divergence) 等. 由于下一步控制所带来测量的不同, 它对当前认知 (current belief) 的影响也不尽相同. 信息测度最优化的过程本质上是探索环境的过程, 即减少环境信息的不确定性.
在信息驱动算法中, 不少研究工作采用参数化滤波器 (如卡尔曼滤波, EKF, UKF 等), 此类算法的主要优势有两点: 其一是计算负荷相对较低, 其二是算法迭代过程中直接提供了信息不确定性测度 (如卡尔曼滤波器中的协方差矩阵).
信息驱动算法具有较强的鲁棒性, 适用于强非线性、非高斯和稀疏估计, 目前在自主搜寻方面已成为主流. 然而, IPP依赖粒子滤波算法且轨迹规划和参数估计深度耦合, 这造成了IPP算法目前只进行单步规划 (one-step ahead), 并且可行控制集较小. 虽然近期的研究带来一些路径规划上的创新, 但巨大的计算负荷逐渐成为亟待突破的发展瓶颈. 当前, 多数实验设备仍然需要远程计算中心协助无人机平台进行轨迹规划和贝叶斯估计, 这限制了无人机平台的灵活性和普适性.
通过上述对控制驱动和信息驱动两类算法的阐释, 我们注意到控制目标(跟踪) 和信息目标 (参数估计) 既不对立、也不统一. 具体来说, 控制目标在于减小无人机与污染源的距离, 信息目标在于探索未知环境减少估计不确定性. 过度偏向于利用 (exploitation) 易造成参数估计不准确、跟踪误差较大或无法找到污染源;而偏向于探索 (exploration) 易造成时间成本、控制成本的浪费, 且跟踪性能较差.
作者团队将双重控制 (DCEE) 的概念引入到自主搜寻任务中, 并提出了以贝叶斯估计为框架的解决方案:
DCEE 将下一步预测浓度引入到环境估计中, 意味着当前的决策u_k 将直接影响参数估计的效果. 通过大量对比仿真与实验, 双重控制显示出优越的搜寻性能.
事实上, 在自适应控制领域已有一些初步结果尝试平衡探索与利用. 在不同文献中, 所用术语也不尽相同, 最为常见的是主动学习 (active learning) 和主动感知 (active sensing), 旨在将参数估计、状态估计或环境感知的性能引入到决策指标中.
主动学习是指无人机在决策过程中考虑下一步移动对参数估计的影响, 直接减少环境信息的不确定性. 一般来说, 强化学习与自适应MPC 采用被动学习的方式更新未知参数. DCEE中融入了探索 (信息目标) 和跟踪指标 (控制目标), 因此属于主动学习. 相比于强化学习, DCEE不需要进行大规模循环尝试, 无人机搜寻过程中仅聚焦于当前位置下的控制决策, 因此计算负荷低, 搜寻效率高.
Bang-bang控制 (或称启停式控制) 结构简单、意义清晰, 又符合污染区域内外的不同特点, 因此在早期文献中被广泛采用. 其基本控制方案可归纳为:如果无人机处于边界内则向外移动, 反之向内.
滑模控制通过定义滑动曲面 (sliding surface), 配合大增益设计, 强迫动态系统沿着滑动曲面运动. 滑模控制与启停式控制类似, 控制设计简单, 无需精确, 且有较强的鲁棒性.
模型预测控制能够有效处理各类系统限制和环境限制, 在现代复杂控制系统中得到广泛应用. 实现动态边界跟踪同时保证系统安全 (如避障功能) 一直是颇具挑战的问题. 目前, 已有一些初步成果展示出模型预测控制的巨大潜力. 然而, 模型预测控制对算力要求较高, 且依赖模型准确性, 对于复杂气体流体扩散的建模往往不能满足MPC的需求.
相比单平台跟踪, 多无人机协作至少有以下四方面优势: 1) 对污染区域的有效覆盖; 2) 同步数据采集更具时空多样性; 3) 时效性强, 在大范围跟踪任务中减少了无人机远距离调度; 4) 鲁棒性强, 多平台测量对噪声和干扰抑制效果提升, 有利于精准边界估计.
尽管如此, 多无人机平台也不可避免地带来诸多新挑战: 1) 多无人机调度更复杂, 需考虑边界覆盖、防碰撞、相互协调、容错等因素; 2) 无人机间信息交互困难, 极端环境下的通信渠道、带宽限制较强; 3) 计算复杂度大幅增加, 多无人机协作过程中不仅要处理大量时空分布的浓度测量, 也要处理无人机间交互、规划协调信息.
目前, 可将多无人机平台协作分为集中式和分布式两种通信方式. 所谓集中式协作指的是所有无人机子系统与中心处理器 (如云平台) 通信, 将所采集数据上传至中心节点, 并接收中心处理器新的控制指令. 此类算法需建立远距离通信网络连接所有无人机, 对中心节点的算力要求较高, 因此扩展能力 (scalability) 较差.
分布式算法指的是系统中不含中心处理器, 所有子系统进行独立自主的信息处理与决策, 但子系统与子系统间可通过局部信道进行通信 (例如, 短距离蓝牙通信). 因此, 分布式系统扩展性较强, 适用于大规模污染事故.
从目前无人机搜寻算法的发展趋势来看, 信息与控制的融合正逐步取代传统的单极发展模式. 信息驱动类算法强调对未知环境的感知、预测与推理, 而控制算法驱动无人机完成相应的搜寻任务. 两者的有机结合与平衡已经在仿真和实验中取得了瞩目的结果.
对于污染源跟踪, 双重控制提供了一个清晰视角来剖析相关文献的本质. 根据双重控制的框架, 未来算法研究可聚焦以下三方面.
多步滚动双重控制 (multi-stage receding horizon dual control): 目前无论是控制还是信息驱动算法大多采用单步预测, 或可称为短视算法 (myopic algorithms), 这限制了两类算法发现多步最优的能力. 实现多步双重控制的关键在于选用或设计更高效的估计算法. 传统参数化滤波器 (如EKF, UKF) 虽计算高效, 但过度依赖模型和噪声性质, 而无模型滤波器 (如粒子滤波) 计算负荷过大. 未来或可尝试混杂估计算法以寻求性能和计算负荷的平衡.
协作搜寻: 目前已有许多文献采取多无人机协作的搜寻方案, 但大多为信息驱动类探索搜寻. 对于多平台搜寻任务, 也亟需建立统一的解决方以实现探索与利用的平衡. 相较于单平台双重控制, 多无人机协作还需考虑如何平衡个体与全局的关系、如何处理个体与全局的冲突以及个体间的交互与避障. 为了充分实现群体智能的优势, 传统集中式方法往往无法协调处理大规模网络, 去中心化搜寻是未来发展的重点方向, 独立子系统的计算负荷需尽可能降低.
对比研究: 尽管自主搜寻已出现大量仿真和实验, 但相关结果一般仅关注某一个或某一类特定算法, 缺少系统的对比实验和分析. 构建标准化的对比实验测试各类算法的性能对未来算法研究有重要的指导意义, 也有助于全面理解各类算法的内在联系和区别, 例如控制驱动类、信息驱动类和双重控制算法.
对于污染边界跟踪监控问题, 尽管越来越多的工作开始强调边界估计的重要性, 但目前对于环境的估计仍然停留在被动学习的范畴. 换言之, 无人机路径决策并未将估计性能引入决策指标, 其决策仅体现了边界跟踪的效果 (如Bang-bang 控制, 滑模控制等). 基于前述观察和双重控制在污染源定位的进展, 未来研究或可聚焦于以下几方面.
信息驱动类边界探寻: 如表2所示, 许多研究通过环境学习构建边界信息, 以此为无人机跟踪提供参考, 估计的准确性间接决定了跟踪的性能. 主动学习的方法 (信息驱动) 可引入到边界估计, 已有研究将信息路径规划算法用于边界探索和污染分布地图重建. 后续工作可考虑将其他信息增益指标和学习算法结合完善基于主动探索的边界跟踪. 对于动态边界跟踪问题, 充分利用主动学习的自适应性有助于提升估计的准确性, 并强化边界跟踪性能.
双重控制: 将控制目标与估计目标统一、并建立两者平衡对实现自主边界跟踪有重要意义, 目前这方面的研究较为欠缺. 边界跟踪的控制和信息目标与污染源定位有较大区别, 相应的算法设计需根据问题属性进行调整、改进. 鉴于覆盖类控制的特定需求, 双重控制在多无人机协作边界跟踪的理论和实践方面都值得关注.
分布式边界跟踪: 由于边界跟踪需要覆盖特定的污染区域, 在实际问题中污染范围往往较为广阔 (如海洋油田泄漏), 传统集中式方法难以处理多无人机平台间的通信、调度、协作. 目前, 多智能体系统的分布式控制、优化、决策方面已涌现出大量研究结果, 可用于解决大范围群体网络化边界跟踪. 同时, 未来研究可将双重控制的思想引入到分布式边界跟踪算法, 并全面对比各类算法在分布式框架下的性能.
注:文中提到的大量研究实例和分析详见论文原文。