+智能,运营商网络运维的“工业4.0”选择
✦ 2014年8月,美国某运营商发生两起911报警电话服务意外中断事件,总计造成3小时服务中断,美国联邦通讯委员会(FCC)对其处以1750万美元罚款。
✦ 2017年3月, 美国某运营商系统故障致911服务中断,5月1日,再次中断,时间持续了45分钟,美国联邦通讯委员会对其处以525万美元。
✦ 2018年10月,美国某移动运营商互联网服务中断整整一天。
运营商网络服务中断时有发生
诚然,电信系统经过多年的研发、测试、部署及运行,积累了大量的运维经验,系统设计本身也是千锤百炼,一般常见的问题都被无数次的软件补丁解决并集成到了后续的系统设计中。但是,问题少并不意味着现场维护的任务减轻了,相反,现场一旦出现问题往往猝不及防,定界定位难度高,常常令运维人员感觉无所适从。
运维中最常见的两类问题
运营商核心网业务范围包含从无线接入后的所有管道和话音交换等业务,网元种类多,相互之间的接口和信令交互复杂多样,监控KPI(KeyPerformance Indicator,关键绩效指标)数量庞大,一个典型的VoLTE(Voice over LTE)系统,KPI数量可高达30,000以上。从服务和维护的反馈来看,目前碰到的最多最棘手的两类问题:
一是升级后的某些隐患不能及时发现而造成后来的事故;
二是静默故障,事故的发生很突然,不能快速定界,贻误时机,酿成大事故。
第一类问题主要发生在升级或操作变更场景。电信系统的升级主要安排在凌晨12点到早上6点之间,升级主要面临以下挑战,首先,时间窗口非常短,没有足够的时间做全面的稳定性验证。其次,升级前的准备和实验室验证无法完全复制现网实际情况,很多软件的缺陷无法及时显现,这给网络本身的稳定埋下了安全的隐患。
如何有效地发现这些隐患并提前预防?如下能力就可以有效发现异常:
一、动态地监控记录系统所有指标的周期性动态阈值范围;
二、对所有指标实时地与同一时间点的动态阈值作比较,找出偏差大的指标;
三、将现网指标与经验库比对,提前给出预防方案。
第二类问题主要发生在日常监控场景,表现是业务异常但无告警,关键KPI也无异常。这类问题一般牵涉到众多网元内及网元间的指标监控,如何快速检测问题、如何快速采集必要的数据来分析定位问题是解决问题的关键。
如下两个能力就可以帮助快速定位问题:
一、通过算法对所有指标与同一时间点的动态阈值作比较,判断指标的波动情况是否超出已学习的范围,辅助判断是否存在静默故障;
二.事故发生后,有完整的现网数据进行问题定位和根因分析。
大数据与人工智能
支撑系统能力构建
综上,要解决运维中最常见的两类问题,对系统的共性需求是:
▶ 全指标的监控能力;
▶ 动态阈值的学习获取能力;
▶ 指标偏差计算的多样化及排序能力;
▶ 指标偏差与系统故障之间的关联能力;
▶ 异常发生后现网数据自动保存能力。
这几种能力的构建需要系统拥有大数据及人工智能基础能力支撑。
大数据能力解决全指标数据的采集和归一化问题;人工智能能力解决算法模型优化及判断问题。
人工智能将为电信网络带来的全新“可预测性”价值。
换药也换汤
要解决电信业面临的挑战,仅仅靠产品创新是远远不够的,需要整个系统架构的创新和商业模式的创新,才能提升运营商的竞争力,解决结构性问题。在这种新场景、新需求形势下,华为Atlas智能计算平台基于昇腾系列AI处理器,面向“端、边、云”优化设计的全场景AI基础设施方案,能满足运营商从“智能的设备”到“智能的控制”及“智能的分析系统”,直至实现基于预测的未来条件来调度网络需求,即故障发生前规避故障、质量劣化前优化质量、网络拥塞前调整流量,从而达到自动、自优、自愈、自治的永不故障的自动网络,结构性提升运维和运营效率。
+智能,电信行业的更多变化
就在MWC2019!
MWC2019
2019年世界移动通信大会(MWC2019)将于2月25日至28日在西班牙巴塞罗那举办,华为携手客户和合作伙伴共同进行全栈AI解决方案的业务展示,期待您的莅临。华为展台:Fira Gran Via 1号馆1H50展区、3号馆3I30展区、4号馆创新城市展区、7号馆7C21和7C31展区。
往期回顾
长按二维码 满足你关于智能计算的好奇心☟