浙江移动 — 利用 TensorFlow 实现通讯运维智能化
文 / 浙江移动网管中心业务系统工程师,邢彪
中国移动近年来积极探索人工智能在通讯领域的应用,由浙江移动网管中心研发的人工智能应用 “智能割接助手” 帮助一线运维工程师更高效的进行网络运维。借助谷歌深度学习框架 TensorFlow 创新性破解难题, 努力为一线运维人员减负。智能割接助手项目已经成功支撑了多个批次总计过亿用户的物联网 HSS 号段搬迁工程。开发团队由多名奋战在一线的网络运维工程师组成,包含核心网专家、监控专家和网络安全专家。
应用背景
“智能割接助手” 是一套由浙江移动自主研发的人工智能应用,它能大大提升网元割接效率。所谓的 “网元”(Network Element)指的是一个网络系统中的某个网络单元或者节点,该单元能独立完成一种或几种功能的设备。举个例子:在 GSM 网络系统中,一个基站就是一个网元。所谓的 “割接”(cutover)泛指针对网络通信设备的扩容、升级、改造、替换、配置更改等高危操作。
目前 5G 的快速发展、NFV 的网络转型都促使我们需要重新定义运维方式,改变传统低效的割接现状。面对目前网络环境日趋复杂、割接牵涉网元繁多的现状,仅仅依赖人工容易导致人为误操作的发生,于是就有了 “智能割接助手”。它是一款以运维人员为中心、基于深度学习的智能化、自动化、易扩展的网元割接全流程管控工具,尤其适合重大型、复杂型割接。包含割接方案统一审批,割接操作统一调度,割接进度统一呈现,割接异常统一管控,割接日志统一管理。实现割接的可视、可控、可回溯。
该工具从 4 月项目启动到 9 月落地只有不足五个月时间。传统的机器学习方法无法满足核心功能的需求,因此我们团队利用业余时间自学深度学习,而中国移动每天产生的海量数据,也为我们应用人工智能提供了良好的基础。通过比较目前主流的深度学习框架最终因为优异的性能、快速的迭代、活跃的社区等缘由,我们选择了 TensorFlow 作为我们模型的深度学习框架。
网元割接主要分为三个阶段:事前、事中、事后。事前主要完成割接开始前的准备工作,包括割接方案制定、业务预拨测、网元健康检查等;事中主要完成割接的所有关键步骤,包括中断 BOSS 连接、数据比对、数据修改、业务拨测、恢复 BOSS 连接等;事后主要完成割接的值守工作,包括网元性能观察、业务投诉情况等。
图 1:网元割接的三个阶段
本项目如何使用 TensorFlow 解决问题?
图2:智能割接助手总体方案
本工具聚焦于通信运维中最常见、风险最大的工程割接场景,为割接安上人工智能大脑将割接过程中的网元负荷数据、操作日志、性能 KPI 数据作为模型的输入。
智能割接大脑主要实现:事前 — 最佳割接窗口预测、事中 — 操作日志自动审核、事后 — 割接值守异常主动预警。
图 3:智能割接大脑
事前 — 割接窗口精准预测
目前随着通信业务的种类越来越多,不同的业务可能会有不同的波峰波谷,同一业务也可能会有不同的业务表现,因此仅仅依靠传统经验来决策割接窗口已不够精确。
长短期记忆神经网络(Long Short - Term Memory, LSTM)是一种特殊的循环神经网络,通过控制缓存中的值保存的时间来记住更长期的信息。适合用于时间序列预测问题。
图 4:长短期记忆神经网络
LSTM 通过学习颗粒度为 5 分钟、跨度若干月份的网元历史负荷数据,挖掘数据的规律,网元历史负荷数据如下图:
图 5:网元历史负荷数据
通过 TensorFlow 来搭建 LSTM 网络以实现割接窗口精准预测。利用 LSTM 在时间序列预测上的优势,通过学习网元历史负荷规律来预测未来某一时间段内的负荷,从而来判断该时间段是否满足割接窗口的条件;
图 6:通过基于 LSTM 的负荷预测来实现割接窗口预判
事中 — 操作日志自动审核
割接操作日志审核的难点在于割接种类繁多,不同割接类型的操作日志不尽相同,现有割接操作日志审核主要通过人工审核方式,效率较低,容易遗漏,审核周期长,无法对异常的割接操作进行及时预警。
图 7:待审核的正常操作日志和异常操作日志
通过 TensorFlow 来搭建卷积神经网络(Convolutional Neural Network,CNN)实现事中 — 操作日志自动审核。利用 CNN 在文本学习上的优势,自动学习历史网元正常状态和异常状态下的割接操作日志特征,从而对操作日志进行审核。
图 8:通过搭建卷积神经网络实现操作日志审核
事后 — 割接值守异常主动预警
目前事后值守主要对各项运行参数分别设置阈值的方式,来发现网元是否存在异常。但由于网元运行指标众多,KPI 数量 一 般达到 50 - 60 维度,因此这种简单粗放、一刀切的方式存在虚警率高、准确度低的问题。
自编码神经网络(Autoencoder)是通过对输入数据进行压缩和解压缩来重建输入数据的过程,适合用于高维数据的异常检测问题,尤其是正常样本数量远远大于异常样本数量,这也是异常检测问题中普遍存在的现象。
图 9:通过搭建自编码神经网络实现 KPI 异常检测
我们的 KPI 样本数据如下图:正常数据远远大于异常数据。
图 10:异常检测问题中正负样本数差异大
通过 TensorFlow 来搭建自编码神经网络来实现割接值守异常主动预警。利用自编码器善于总结原数据精髓的优势,来学习网元正常状态下的历史 KPI 运行规律,通过自编码神经网络对原数据进行压缩和解压缩来实现网元异常检测。促使割接事后值守及时发现割接操作后网元的异常,从而及时倒回割接,最大程度避免故障。辅助现有的人工值守,不局限于割接类型、不依赖于专家知识。通过混淆矩阵可看到在线检测的效果比较理想,告警准确率相较以往提升约 15%。
图 11:通过混淆矩阵可看到在线检测的效果比较理想
应用成效
截至目前,本工具已成功支撑了多个批次的集团物联网 HSS 用户搬迁工程顺利完成,为全球首次亿级物联网用户 “乔迁新居” 保驾护航,搬迁规模大、复杂度高、影响面广。搬迁码号涉及 13 个省公司、总计过亿的搬迁用户数据、需要全国 31 省联调配合、近 500 人的全国协同作战团队,大大提升了割接成功率、减少了割接倒回次数、从而减少了总体割接次数。
图 12:智能割接助手操作界面
未来可期
随着未来智能割接助手应用于更多网元类型、更多设备类型的割接中去,我们也将积累更多的训练数据,使我们的模型准确率更高,不断的调优我们的算法模型。同时继续深挖网元割接与 TensorFlow 相结合的场景,使得割接更加安全、可靠、轻松!让割接 so easy!