查看原文
其他

一场技术长征,解码中国电力调度最大一朵云建设始末

徐鑫 数智前线 2023-05-06

四年前,基于阿里云飞天操作系统搭建的南网调度云正式投运,目前支撑了南网200多个系统的稳定高效运行。


这项系统工程的背后,可以窥见云计算进千行百业的路径:长期主义和务实投入使得云平台顺利建成,行业深化用云又反向拉着云厂商产品能力提升和创新,最终推动了电力行业进入智能时代。


文|徐鑫‍‍‍‍‍‍‍
编|‍‍‍‍‍‍任晓渔



8时15分,在南方电网一条千伏特高压直流线路上,电网运行中一个断面越限问题(处置不当可能会导致大规模停电)被调度员毫不迟疑地解决了。TA的手法很干脆,通过调整了调度范围内一个叫糯扎渡电厂的发电功率,输电网络的危机消弭于无形。


实际上,这是AI调度员基于真实的电力场景数据,在7天时间里无人驾驶电网时,处理和应对电网调度危机的一幕。今天举办的南方电网第四届电力调度AI应用大赛上,参赛队伍所开发出的AI智能调度能力已不输给真人。


大赛的评审之一,中国工程院院士、阿里云创始人王坚认为,过往人工智能发展的历史是在不断定义根本性问题。当机器的数据超越人的表现后,行业问题解决,学科也得到了发展。当下电网行业,AI应用大赛也正在定义新的问题,它蕴藏着推动学科进步和行业进化的力量。




作为南方电网数字电网建设的一部分,AI应用大赛正提升电力系统的人工智能应用水平,它所代表的“云+AI”创新趋势正牵引着“调度”这一电力行业最核心部门的进化。


这股数字创新浪潮始于2015年。历经几年打磨和酝酿,2019年7月基于阿里云飞天操作系统搭建的南网调度云正式投运。目前它支撑了南网200多个系统的稳定高效运行,也是南网调度系统在AI应用层持续创新的智能底座。


长达八年的系统工程背后,可以窥见云计算进千行百业的路径:长期主义和务实投入使得云平台顺利建成,行业深化用云又反向拉着云厂商产品能力提升和创新,最终推动了电力行业进入智能时代。


 

01

给最不能出错的环节加上智能防护


“接下来(15分钟内),你需要操控 (一个开关),在(某个时刻)再断开,达到(某个效果)后,再回到(某个状态)。”一个操着字正腔圆普通话的声音正在下达指令,语速不疾不徐。指令结束前,他继续要求,“请复述上述操作过程。”


接收指令的人对着通话设备复述流程后回复,“请总调确认”。


调度台的声音传回,“确认操作”。


在另一名操作员的监督下,接收指令的一方完成了操作过程,这一切都被监控系统记录了下来。


你可能以为这是航天飞机执行某关键动作时与后方指挥体系的对话,或是火箭发射点火前调度台与操作员的交流。


事实上,这是电网调度体系里总调对下级单位发出调度指令时的场景。这套与军队作业一样严谨,要求确保操作科学合理无误的操作流程,体现了电网调度作业对实时性、准确性和安全性的严苛要求。


这种9999级别的严苛与电力调度环节所承担的使命紧密相关。电能传输速度极快,几乎没有转化空间,产生后需要实时输配电,进入消费终端。因此,调度作业的职责需要实时配平一个动态平衡的等式,让区域范围内的发电功率动态平衡于全社会的用电需求。


作为全社会的基础设施,2020年中国平均供电可靠率为99.865%,普通人能够感知到的确定性背后,有一个庞大的产业在支撑。发电、输变电、配电,最后流入千家万户,点亮万家灯火。而贯穿所有环节的大脑就是电网的调度系统。


在南方电网,南网总调聚拢了一帮“双清”(本硕清华)“三清”(本硕博清华)级别的高材生,每天三班倒,时刻盯紧这个动态等式。


等式的左边,南网所覆盖的五省生产电力机构生产出的电力并不如想象中恒定。

目前我国南方五省的电能供给分为火电、水电、风电、光伏和核电五种。随着国家的双碳政策调整,相关政策要求电力调度网络优先保障新能源清洁电能的消纳。这意味着风能和光伏这种分布式的不可计划、与实时气候变化密切相关的电能量源会日益在电力供应里占据更重要的位置,它增加了电网稳定运行的不确定性。


等式的右边,需求方的负荷预测也并不如想象中那么固定。社会经济发展带来的人口流动、移动设备增加和新型电动车的出现,社会面的负荷波动出现了各种变量。


简言之,电能量源由过去的集中开始走向分布,电能量流向也不再单一,给电网的稳定运行带来了巨大挑战。


配平等式还需要考虑电网设备运行的安全阈值。一旦电网在能承载范围内满负荷运行,突然出现的台风、暴雪等极端天气或偶发性不可抗力损害,就可能对电力网络和设备造成不可逆的损害,造成社会面大范围停电,影响经济社会的正常运转。此外,电力调度还需要考虑电能配送的成本。


综合来看,电网调度是一个永远在和突发、不确定及波动对抗,通过快速计算,实时地在绿色、经济和用电安全中平衡的团队。他们是时刻且永远在计算社会最优解并执行最优解的人。


正是这项工作极高的计算要求,电力调度系统内的有识之士开始探索把以人工智能为代表的新型计算技术和成果引入电力行业。


现在,新一代的人工智能技术正在引入到电网运行时不容有错的环节。在开头这一幕颇具军事行动色彩的场景里,南网总调正在尝试用AI技术把过往行业专家们的最佳实践和操作规范沉淀成知识图谱,在具体操作环节,用云上运行的模拟仿真软件和语音视觉等智能技术,识别待操作指令能否达到既定目标,同时监督操作步骤合规与准确。“出现紧急故障,恢复操作也将能自动生成,调度员操作就有了智能防护。”南方电网高级技术专家梁寿愚说。


南网的尝试并不是近期才开始。过去几年里这家肩负南方五省和保卫珠三角繁荣的电力基础设施提供方,已经和阿里云合作,将云计算、大数据和人工智能技术引入到了业务的最核心环节。

 


02 

上云之前的日子


2019年8月,南网“调度云”投入生产运行,是当时全国电力行业里第一朵大规模建设的行业云。数百台服务器,又是最核心的调度系统,秒级扩展计算资源(过去需要几个月)、即插即用,这在行业里引发了非常大的轰动。


了解内情的人知道,合作并非一蹴而就。双方的核心业务骨干为此花费了近三年时间,就上百项指标进行POC验证,水到渠成的结果。


南网总调团队第一次接触阿里云在2015年。那一年,阿里云刚开始举办云栖大会,云计算正在成为许多互联网企业进行IT部署的首选。在电力行业里,许多人对云计算尚且一无所知,一些听说过云计算的人,对这一新鲜事物的理解停留在虚拟化、云桌面等技术层面。




南方电网高级技术专家梁寿愚是行业里为数不多关注云计算的人。他从2003年毕业后一直在南网总调工作,深度参与过电网调度自动化系统的建设。梁是个技术控,沉迷于用技术解决业务问题。2012年他就试用过亚马逊的云计算产品,这项技术从那时进入他的视野。


与此同时,中国社会变迁带来的用电侧需求变化和蓬勃发展的新能源产业发展正在给电网调度带来新的考验。电力调度系统需要不断去建设一些小的系统验证新的业务形态和场景,传统IT建设模式已逐渐无法跟上未来的业务场景需求。


梁寿愚对新技术的关注和内部布道引发了南网总调部门内的好奇心,南网总调带了十几人的调研团在“双创”如火如荼的时节到了杭州。这次调研是一个契机,播下了阿里云的云计算技术进入电力行业的种子。不过,一颗种子种距离大树参天,还有一个漫长的过程。


在一个容错率很低、对安全极度关注的相对保守的行业里,推动核心业务上云并不容易。一边,懂技术的业务专家们在南网里技术布道,争取资源;另一边,双方的业务骨干花了近三年时间在做可行性验证(POC)。


梁寿愚还记得自己当时把阿里云副总裁拉到了广州珠江新城的南网总调大楼演讲。会议室里座无虚席,门口都被挤得水泄不通。


“那是一个情怀驱动的时期。”阿里云南方电力团队负责人周岚阳回忆,他参与了早期的POC阶段。


POC主要验证几个层面的指标。一是,观察云化基础设施支撑系统和业务时的快速响应性。当业务有需求的时候,能够以明显优于传统部署方式,快速地提供计算资源,支撑业务系统上线。二是,云上的工具箱比如存储、数据库和中间件等能力,能够快速支持业务开发,不需要去耗费精力解决原有的硬件和软件工具之间的衔接适配等,即插即用。


通过对100多个功能项的测试和验证后,云计算方案的先进性和安全性在业务场景里得到了证明。三年投入中,双方的技术团队通过一个又一个的小尝试,产生了可以被看到的成果,逐步让双方都清晰地认识到云计算和电力调度的碰撞可以产生更多的价值,最终才真正推动了云计算在电力行业里的全面落地。


两个明显的价值让追求稳定的电力行业管理者愿意用云技术进行业务革新。一是,用了云以后所有的系统建设都不需要重复采购软硬件,直接在云上申请资源就可以建业务系统,这极大节省了开支,且明显支撑了业务系统的快速迭代升级。二是原有软件系统的性能能大幅提升。例如日前安全校核功能计算时间从过去的1小时缩短到10分钟。

 


03 

智能底座:从上云到深入用云


2019年8月,南网调度云正式投运,到今天,这朵云上已经有200多个与调度相关的业务系统在稳定运行。南网总调的专家技术团队将南网调度云至今的建设历程分为云部署、云原生和智能化三个阶段,上云为此后的业务系统性能提升,智能化应用创新打下了基础,云也逐渐成为了支持南网调度系统更加智能化发展的基础设施。


项目刚刚投运时一次性建设了300多台服务器资源,当时南网总调认为资源足够使用三年。2019年夏天完成部署,试运营周期到当年秋天,结果试运营期间就有几十个应用涌上了云,上线当年,70%的资源就被抢空。


2020年,南网调度云第一次扩容,2021年又建了云上的超算平台,随着业务的扩大,今年春节前双方完成新一波扩容后,规模已经超过了 1000台。云资源被业务部门争抢背后,是业务部门对经过云化改造后系统性能提升的认可,也是对云的使用场景更加深化的表现。


在上云阶段的主要工作是把原本跑在传统IOE上的架构给去掉,搬到了云上。云原生阶段则意味着,业务系统的架构方式发生了改变,中间件、存储和数据库等工具组件和云的能力都可以被模块化添加到云化的系统中。业务系统遭遇的掣肘就非常少,运行起来就更稳定,云上的软件系统性能也会提高。经过云原生改造,南网生态里ISV也能更快捷地为南网调度做应用开发创新。


云化SCADA系统是南网调度云上最早做的一个云原生的系统。2019年运行后,实现全网10kV及以上电压等级电网的监控功能,是业界第一个网、省、地主网一体化监视的大电网自动化系统,也是业界第一个可秒级扩展计算资源、即插即用模块化的电力调度自动化系统。经过云原生化改造,它从原本只能支持五六千个节点升级为可轻松支持十万级的节点,性能有了极大的提升。


随后,南网上线了国内电力行业首个云超算平台。基于基于云超算平台的气象精细化预测系统可提前7天预测台风动向,6小时短临天气预报最快每30分钟就可输出一次计算结果。


2022年3月,电力系统仿真软件(DSP)也被部署到南方电网调度云平台,云上的分布式并行计算把以往2~3小时的计算时间缩短至30~40秒,提速360倍。




2022年开始,南网逐渐在推动AI应用的发展,云平台建设也充当了电力调度智能化的底座角色,其中最有代表性的就是AI负荷预测。


负荷预测,是电网调度工作里对需求曲线、需求的功率和需求的用量等指标的预测,它被视作是未来整个电力市场运作的起点,也是电网运行与电力市场紧密结合的点。从2019年开始,南方电网开始举办AI大赛,连续几年的大赛,都在探索调度核心业务的智能化应用。


大赛的成果也逐渐被转化到生产场景里,2020年3月,南网的AI系统负荷预测系统投入试运行,2022年9月30日正式进入单轨运行(替代人工预测)。


这是国内首个省网一体的AI负荷预测生态平台正式投运,换句话说,AI真正用在了实际生产的调度台上。


“调度口这一块的AI,我们都希望能够对标国外先进的电网公司”。梁寿愚告诉数智前线,负荷预测准确率提高,比如能较准确地预测峰值低谷,就可以更好地编排生产计划,避免不必要的限电动作,能带来巨大的经济和社会价值。


根据最新发布的《数字电网调度领域新技术成熟度报告》,电力调度领域新技术正从“云”向“云+AI”融合发展,知识图谱、强化学习等已经成为行业应用的热点。南网正基于这些技术,来探讨提高电网运行的安全稳定性和新能源消纳占比等现实问题。





04 

云上创新的良性循环


云厂商们总结提炼过深入行业场景的方法论。


常见的做法是标杆客户上云之后,通过云原生的方式对它们复杂的核心业务系统进行改造,便利业务创新。而标杆客户们贴合业务场景的需求,最终会反向拉动云平台形成更标准化的产品解决方案,锤炼他们公有云的能力。


在阿里云和南网总调的合作里,这条路径已是正在发生的现实。云厂商和标杆行业客户共创,推动了云计算在行业落地,并逐渐形成一个良性循环,共创出多个“行业首例”,数据飞轮效应初现。


无影云电脑就是一个典型的案例。如今,无影已经被用于南网多部门的安全办公,保障数据安全的同时也解决了传统PC办公时故障多、运维成本高等难题。此外,无影也被南网用于解决业务国产化应用生态体验不足等问题,创造一个软硬件兼容的国产办公环境并提升体验。在今年的电力调度AI应用大赛上,一些参赛队伍还基于无影云电脑完成了远程开发。


数智前线了解,云电脑的深度使用,离不开南方电网业务应用场景的“倒逼”。


南方电网内部的许多子公司调度部门需要配备非常多工作台,并配置好相应的特殊业务系统,此前他们多采用采购笔记本硬件的方式来配置工作台。随着南网对安全和性能等多方面的要求,它们开始寻求更便捷更安全的解决方案。


阿里云在2020年云栖大会上推出的无影云电脑让南网的调度部门眼前一亮。他们认为这个产品能够满足他们对业务未来的设想。




南网在使用无影云电脑的过程中,反向推动阿里云不断完善产品性能。目前无影云电脑的性能和产品已成长到满足南网业务场景的使用需求。“双方的合作,也在深化对云在电力行业解决方案的理解。”周岚阳说。


深入行业解决具体业务需求时,对不同技术路线存在争议也是常有现象。比如在电力系统操控层面与AI结合所选择技术路线上,双方就经历了从求解器到强化学习技术路线的转变。


最初选择的技术方案是做求解器。南网内部的专家则提出了不同的意见,他们认为这项技术无法融入电网调度经验,相当于一个高智商但却没有经验的调度员,不能秒级响应电网运行变化。它可能随着场景和数据变化,耗时在几十分钟到几个小时不等,这对需要实时平衡的电力调度系统难以接受。因此,双方一直在商讨什么样的技术可以引入电网积累运行的经验“数据”。


最终经过磨合,2021年底双方的技术专家们选择了更符合业务场景的强化学习技术路线。


新型电力系统接入大规模市场对象,对电网稳定性和新能源消纳能力提出更高要求,需要实时性更强的调度,传统优化决策遇到瓶颈。强化学习则提供了一个大规模实时调控决策智能解决方案。目前,在全行业,法国RTE、国家电网、南方电网均举办了强化学习操控电网为题的电力调度AI应用大赛。


但以往强化学习用于智能决策存在两个主要问题:一是难以保证100%的决策准确性,应用于实际生产中会存在安全问题;二是即便达到99.99%甚至100%的验证效果,也难以对决策过程做出可信的解释。


三年前,达摩院决策智能实验室开始针对电网进行人工智能技术的研究。技术专家们针对强化学习上述的问题,决定提升训练能力——训练的越多,分布的数据越广,安全性越高;并将优化算法和强化学习相结合,将数据和模型结合,提高算法的计算效率与可靠性。


同时,“这套电力优化与强化学习决策平台跑在阿里云上,能实现快速的计算。”阿里巴巴集团研究员、达摩院决策智能实验室负责人印卧涛说,如今,云上的AI实时调度智能体,具备了秒级的决策能力。


经过一年多的准备和研发,该平台支持了第四届电力调度AI应用大赛。为此,南网总调提供了五省区1000多个机组规模为期半年的实时电网数据,是有史以来用于强化学习训练规模最大的电网调度运行数据,并与阿里云共同搭建了云化DSP电网仿真系统+强化学习算法+集群化封装的分布式训练平台,为AI调度员“出山”前提供千百万次“操练”。


“这相当于在两周内有超过100人的团队要在平台上进行框架学习、编程、训练、调整模型,最后完成在线部署。这是封闭环境下的高强度开发,不仅考验调度能力,也考验平台的自动扩容、负载平衡的能力。”印卧涛说。


最终,22支队伍同场竞技,9天内就训练出了表现不俗的AI调度员,在满足危险断面控制、负荷平衡、清洁能源消纳、系统运行成本最低、10秒出结果等要求下,AI调度员连续7天实时操控电网的整体表现不逊于经验丰富的人工调度员,并且将计算时间从分钟级提升到秒级,清洁能源消纳解决100%。


这意味着,AI调度的能力已经在真实场景得到了充分验证。


南网举行的电力调度AI应用大赛已经进入第四届,双方的探索和合作还在继续,调度云平台已经成为了这些探索和创新的底座与基础。




最近大热的大模型也进入了南网的关注范围。南网总调已经开始打算投入资源,联合平台企业的大模型来训练电力调度场景的小模型,他们认为就像云一样,大模型未来也会是电力系统的基础设施。



05‍‍

结 语


行业化已成云计算市场主流厂商们的共识。在千行百业深入用云阶段,每个行业都有需要攻克的高峰。企业和云厂商们只有以长期的投入、极度务实的态度,才能在内外部争取更多资源支持,降低技术在核心场景里的应用门槛。


大胆畅想,小心求证,小步迭代,快速前进。容错率极低的电力调度系统正是在这种路径下完成了上云、核心系统的云原生改造和云上创新之路。


未来,可以想见,AI会是深刻变革各行各业的力量,可能也会成为云计算最大的算力需求方。在行业和人工智能深度互动时,一个坚实底座和一个原创性的问题,都将是牵引行业变革和技术进步的关键力量。


“工业界是用新技术最好的地方。工业界如果能把新技术用好的话,对社会经济发展和人类生活变化会产生巨大的影响。”王坚说。



©本文为数智前线(szqx1991)原创内容

未经授权,禁止转载

转载、进群或商务合作联系后台






文章精选


       ​

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存