千里之堤,溃于蚁穴,WLF青年科学家利用AI预防复杂基础设施系统故障
4·2台湾列车出轨事故 图|ETtoday
一个小错误,却导致惨烈的后果,这在交通、建筑、供水、电网、通讯等基础设施系统中并不罕见。研究人员会采取多种策略来应对这类风险,来自苏黎世联邦理工学院(ETH)智能维护系统教授奥尔加·芬克(Olga Fink)也是其中之一。奥尔加·芬克于去年参加了第三届世界顶尖科学家论坛(WLF),为我们分享了她和她团队的研究。在本文中,她与其他三位同样来自ETH的学者一起,为我们展示了4个基础设施系统的管理策略:增加城市系统韧性,风险管理关键网络系统,预测系统故障与系统寿命,以及关注多重性。
策略1——城市系统:
增加韧性,了解子系统之间的相互影响
新加坡是个高密度城市,它在气候变化、土地稀缺等挑战下,需要长期的规划并对城市基础设施进行及时调整。该模型不仅整合了所有和建筑相关的基础设施系统(如电力和供水),还能对用户与系统的交互进行建模,即允许用户运行多种系统的多重模拟,并在这些模拟中交换信息。
风险管理,预防可能的连锁反应
复杂网络系统会随着时间进行扩张或收缩,进而改变结构,这让其风险变得难以描述。不少复杂网络分布于全球,而且通常没有固定的运作模式。例如电网,会受到各种不同的影响,且在负载下的响应与正常运行时并不一样。
同样地,圣萨维尼和他的团队利用计算机模型展开了实验。利用不确定性量化(uncertainty quantification)的科学研究方法,该团队能捕捉到大量可能发生的影响和故障,并随之观测建模网络的表现。这样的蒙特卡罗模拟法(Monte Carlo simulations,即把概率现象作为研究对象的数值模拟方法,蒙特卡罗是摩纳哥的著名赌城,该法为表明其随机抽样的本质而命名;与之对应的是确定性算法。)可以研究无数故障之间的相互关系,能为发现隐藏的或“系统性”的风险提供线索,即某种风险可能触发连锁故障,而连锁故障通常是造成复杂系统严重问题的根源。例如2003年的意大利大规模断电事故,原因就是负荷不断增加导致自动系统一个接一个地连锁关闭导致的。
蒙特卡洛 图|Azamara
预测故障,以及预测使用寿命
芬克说:“我们的目标是预测这些系统剩余的使用寿命,然后控制它们的运行以延长其使用寿命。”这些智能算法会从历史与实时操作以及状态监视数据中学习,这个过程需要大量的数据,而这也让团队遇到了一个难点,芬克表示,“在安全关键系统(safety-critical systems)中,故障很少发生,这意味着我们没有足够的数据来学习。”
不过,即使这样,很多情况下数据量依旧不足,研究人员还需要将他们的算法与物理模型相结合,来模拟他们正在监控的系统,或利用物理领域的知识来丰富AI模型。通过这些方式,算法可以使用更少的数据,并且能让根据算法输出来作决策的专家们更容易对此进行说明。
例如在美国宇航局的一个项目中,研究人员能够通过这样的算法预测飞机引擎的剩余使用寿命。芬克对这一成就感到特别自豪:尽管早期故障监测技术已经相对成熟,但预测系统剩余使用寿命要困难得多。她开玩笑道,这是她研究领域的“圣杯”。
奥尔加·芬克在去年参加了第三届世界顶尖科学家论坛,并在分论坛“世界顶尖科学家青年论坛之人工智能会议Ⅰ”上带来了“将物理学和AI算法结合起来建立信任”(Building Trust by building physics and AI algorithms together)的主题演讲,分享了她和团队的上述研究。
柴油发电机 图|Generator Source
不过,最重要的是针对所有设施和建筑物的预测性维护策略,即各类破坏发生的预防措施。IT维护工具会跟踪每个系统的运行时间和维护计划,并在到期时触发维护工作。传感器的监测作用也越来越突出,它能检测到突发故障。设施管理团队可以在计算机上远程访问这些数据,并在一定程度上干预系统的操作。尽管目前这些设施监控系统和维护工具还没有进行互联,但随着传感器技术和人工智能的发展,这是迟早的事情。
编译:冬青子