【精彩论文】基于深度确定性策略梯度算法的风光储系统联合调度策略

中国电力中国电力 2023-12-18

‍

基于深度确定性策略梯度算法的风光储系统联合调度策略

张淑兴¹, 马驰², 杨志学³, 王尧¹, 吴昊¹, 任洲洋³

（1. 中广核研究院有限公司，广东深圳 518000; 2. 中国广核新能源控股有限公司，北京 100084; 3. 输配电装备及系统安全与新技术国家重点实验室（重庆大学），重庆 400044）

摘要：针对风光储联合系统的调度问题，提出了一种基于深度强化学习的风光储系统联合调度模型。首先，以计划跟踪、弃风弃光以及储能运行成本最小为目标，建立了充分考虑风光储各个场站约束下的联合调度模型。然后，定义该调度模型在强化学习框架下的系统状态变量、动作变量以及奖励函数等，引入了深度确定性策略梯度算法，利用其环境交互、策略探索的机制，学习风光储系统的联合调度策略，以实现对联合系统功率跟踪，减少弃风弃光以及储能充放电。最后，借用西北某地区风电、光伏、跟踪计划的历史数据对模型进行了训练和算例分析，结果表明所提方法可以较好地适应不同时期的风光变化，得到在给定风光下联合系统的调度策略。

引文信息

张淑兴, 马驰, 杨志学, 等. 基于深度确定性策略梯度算法的风光储系统联合调度策略[J]. 中国电力, 2023, 56(2): 68-76.

ZHANG Shuxing, MA Chi, YANG Zhixue, et al. Deep deterministic policy gradient algorithm based wind-photovoltaic-storage hybrid system joint dispatch[J]. Electric Power, 2023, 56(2): 68-76.

引言

在中国碳中和的背景下，大力发展可再生能源成为国家战略和社会共识。而风电、光伏以其分布广泛、技术成熟以及成本低廉等优势在众多可再生能源中脱颖而出。据国家能源局的数据显示，截至2020年底，中国的风电和光伏的装机分别达到了2.81亿kW和2.53亿kW，分别占到了可再生能源总装机容量的30.08%和27.08%^[1]。而为了持续推进能源革命，实现双碳目标，国家能源局规划中国在2030年风光总装机将达到12亿kW以上，是目前风光总装机的2倍以上。然而，风光的随机性、间歇性和波动性成为制约其发展的瓶颈。而储能系统以其平滑波动、削峰填谷、调频调压等功能成为了解决这一问题的有效手段。鉴于储能系统良好的调节特性，将其与风光结合构成联合发电系统，可以有效改善联合系统的总体有功输出，提高电网运行的安全性和稳定性。在联合系统中，风光储各个子站的功率分配也成为确保联合系统运行经济性和电网安全性的关键所在。针对这一问题，文献[2]提出了风光储联合发电系统在平滑出力、跟踪计划和削峰填谷3种不同模式下的调度策略。随后，联合系统的碳排放成本^[3]、储能运行成本^[4]以及弃风弃光惩罚成本^[5]等都被纳入模型中。在此基础上，文献[6]又提出了考虑储能荷电状态反馈的改进平滑控制策略和“风光捆绑、储能解耦”的协调跟踪策略，并在张北的风光储国家示范工程中应用。而由于考虑到风光出力的随机性和间歇性，一些采用置信区间理论^[7]、相关机会规划理论^[8]以及鲁棒优化^[9]来描述风光出力不确定性的联合发电系统调度方法也相继被提出。然而，上述研究方法都是通过先验的概率模型捕捉风光的不确定性，都难以将数据中蕴涵的决策信息完整地表述并提供给决策者。同时，他们都局限于固定的调度计划，难以动态适应风光的随机波动和实现在线控制。对于多时间尺度的调度问题，上述求解方法很容易由于维数灾而陷入局部最优。因此，本文将深度强化学习引入风光储联合系统的调度中。强化学习是一种自适应的无模型机器学习方法，通过动作和奖励机制，利用与环境交互的反馈信息逐步改进决策能力，获取奖励最大状态下的动作策略^[10-11]。因此，其具有很好的对历史数据特征的提取与在不确定性环境下的决策能力，可以直接学习风光的历史出力数据，训练出可以适应风光随机变化的决策网络，并且实现在线快速决策，避免了复杂的风光不确定性建模和维数灾问题。

为此，本文提出了一种基于深度强化学习的风光储联合系统的调度策略。首先，建立了联合系统的动态经济调度模型以跟踪计划，减少弃风弃光。然后给出了在深度强化学习框架下的模型描述，最后采用深度确定性策略梯度（deep deterministic policy gradient，DDPG）算法学习历史风光出力数据，训练出了自适应风光随机变化的决策网络。

1 风光储系统联合调度模型

1.1 风光储联合系统功率控制原理

风光储联合发电系统是由联合调度层、风光储场站监控层以及场站设备层组成，其结构^[6]如图1所示。

图1 风光储联合发电系统

Fig.1 Wind-photovoltaic-storage hybrid power generation system

可以看出，联合调度层基于场站的监控信息实现对风电、光伏以及储能的协调控制，场站监控层主要实现对各个子系统的单独监控和各个设备的运行信息的上传，而其中场站设备层主要包括风力发电系统、光伏发电系统和储能系统^[12]。

进一步看出，上级调度机构通过联合调度层下达电网的调度指令，场站监控层接收到调度指令之后，分解后下发到设备层的各个风电、光伏以及储能单元。因此，风光储联合系统的核心功能就是通过统一协调分配风电、光伏以及储能系统的发电功率，以实现跟踪电网调度指令并且减少弃风弃光的目的^[13-14]。

1.2 目标函数

为了提高风光储系统的功率跟踪能力，改善其输出特性，本文建立了以风光跟踪考核成本、弃风弃光成本以及储能运行成本最小为目标的风光储协调控制模型，其目标函数为

式中：C_wpb为联合系统的总成本；C_k为联合系统跟踪偏差考核成本；C_q为弃风弃光成本；C_bt为储能运行成本，其计算式分别为式中：T为调度周期；P_wt(t)、P_pv(t)和P_bt(t)分别是风电、光伏和储能在t时刻的控制功率；P_wt,max(t)和P_pv,max(t)分别为风电和光伏在t时刻的最大出力，属于风光的日前预测值；P_plan(t)为上级电网给定的系统在t时刻的跟踪出力计划值；c_sell、c_unit,bt和c_unit,k分别是风光售电电价、储能充放电单位成本和风光跟踪偏差单位考核成本。为了评估联合系统的跟踪能力，引入跟踪计划平方差E_s及其最大跟踪偏差E_max来量化联合系统的跟踪性能，其具体计算式为1.3 约束条件（1）风电场出力约束为式中：V_wt(t)为风电场在t时刻与t–1时刻输出功率的差值，其功率限值和波动时间尺度和装机容量相关，详细可见《西北区域并网发电厂辅助服务管理实施细则》和《西北区域发电厂并网运行管理实施细则》^[15-16]； V_wt,max为风电场理论输出功率的最大值。（2）光伏电站出力约束为式中：V_pv(t)为光伏电站在t时刻与t–1时刻输出功率的差值，其功率变化限值与风电相同； V_pv,max为光伏电站理论输出功率的最大值。（3）储能电站出力约束。为了引导储能设备合理充放电和避免过充过放，延长其使用时间，设置储能电站的约束条件为式中：P_bt,max为储能设备的最大充放电功率；H_soc,max和H_soc,min分别为储能荷电状态（state of charge，SOC）的上限和下限；H_soc(t)为储能设备在t时刻的荷电状态，其计算公式^[7]为式中：ρ为储能电池的自持放电率；ΔH_soc(t)为储能设备在t时刻的荷电变化量，取决于储能设备的充放电状态和充放电功率，具体计算式为

式中：E_bt,max为储能设备的最大容量；η_c为储能设备的充电效率；η_d为储能设备的放电效率。

2 风光储联合调度模型的深度强化学习框架

强化学习是一种通过训练智能体与环境不断交互来建立环境状态与动作之间映射关系的自我学习机制。它本质上是一个马尔科夫决策过程，主要由包含状态空间S、动作空间A、状态转移概率P、折扣因子γ和回报函数R构成的五元数组{S, A, P, γ, R}^[17-18]。

在强化学习过程中，定义策略π为状态空间到动作空间的一个映射(S→A)，表示为智能体在状态s_t选择动作a_t，执行该动作并以概率P (s_t, a_t)转移到下一状态s_t+1，同时接受来自环境反馈的奖赏r_t。而在一个多步的强化学习过程中，假设未来每个时间步所获的立即奖赏都必须乘以一个折扣因子γ，用于削减远期决策对应的奖励，权重则从t₀时刻开始到T时刻情节结束时，奖赏之和^[19]定义为

因此，智能体根据得到的奖励R来调整自身的策略并针对新的状态s_t+1做出新的决策a_t+1，以期获得最大的长期累积奖励，其原理^[20-21]如图2所示。

图2 强化学习原理

Fig.2 Schematic diagram of reinforcement learning

在强化学习过程中，如何根据现有的优化模型定义系统的状态变空间、动作空间以及奖励函数成为常规优化模型向强化学习模型转化的关键。

（1）状态空间S。在风光储联合调度模型中，选取联合电站跟踪计划值、储能的充放电功率、SOC、风电以及光伏的预测出力作为状态空间，即

式中：S_plan为联合电站跟踪计划；S_bt和S_soc分别为储能电站的充放电功率和SOC；S_wt和S_pv分别为风电和光伏的预测出力。（2）动作空间A。在强化学习中，一般选取模型的决策变量作为系统的动作空间，如风电、光伏以及储能的出力。但是考虑到本文中决策变量之间存在时序耦合特性，直接选取上述设备出力作为决策变量将难以处理模型中存在的式（2）~（5），因此，为了简化模型学习的复杂性和考虑决策变量之间的时序耦合性，本文选取风电、光伏以及储能的出力增量作为动作空间，即式中：A_wt、A_pv和A_bt分别为风电、光伏和储能的出力增量。（3）奖励函数R和折扣因子γ。为了训练智能体学习到在联合调度总成本最低下的调度策略，设置目标函数的负值作为奖励函数，即中成本越低，奖励越大，由此鼓励智能体学习最优调度计划，得到即时奖励r_t的计算式为式中：r_t为智能体在某个状态s_t=[s_plan,t, s_bt,t, s_soc,t, s_wt,t, s_pv,t]下选择动作a_t=[a_wt, a_pv, a_bt]得到的即时奖励。而对于整个调度周期T，为了最小化整个调度周期内的目标函数，存在累计奖励函数R为

式中：R为智能体基于系统外部状态变量得到相应的调度计划之后的获得的累计奖励；γ为折扣因子，表示未来汇报相对于当前的重要程度，γ=0时表示只考虑当前即时汇报而不考虑未来的长期回报，γ=1时表示未来的长期回报和当前的即时回报同等重要。

3 基于DDPG算法的风光储联合优化问题求解

3.1 DDPG算法

DDPG是一种无模型的强化学习算法，其由价值网络（Critic）和策略网络（Actor）组成，价值网络用以估计智能体在状态s下采取动作a之后得到的期望奖励Q值，而策略网络基于系统状态s得到使得Q值最大化的动作a。同时，DDPG引入经验回放技术，使得网络可以学习大量历史经验数据并且沿一个较为稳定的方向前进^[22]。

3.2 模型训练机制

（1）价值网络的训练。当前价值网络通过最小化的损失函数来进行参数更新^[23-24]，即

式中：为第k轮学习时的价值网络参数；μ_Q为值网络的学习率；为损失函数对参数的梯度。

（2）策略网络的训练。策略网络需要学习使得价值网络输出Q值最大，因此价值网络的输出Q函数可以作为策略网络的损失函数，通过对Q函数求策略梯度，得到策略网络的更新公式^[23]为

式中：为第k轮学习时的当前策略网络参数；μ_π为策略网络的学习率；为策略梯度。

为了确保学习过程的稳定性，对于目标网络通常采取软更新技术，目标网络参数进行缓慢更新为

式中：分别为第k轮学习时的目标价值网络和目标策略网络参数；τ为软更新系数。

（3）基于DDPG算法的风光储联合调度模型结构如图3所示。DDPG算法中策略网络的输入是5维的状态变量s_t=[s_plan,t, s_bt,t, s_soc,t, s_wt,t, s_pv,t]，输出是3维的动作变量a_t=[a_wt,t, a_pv,t, a_bt,t]，二者分别为状态空间S和动作空间A下的子集。而价值网络的输入是状态变量和动作变量，输出为评估在该状态下所选择动作效果的值函数Q(s_t, a_t)。网络的学习机制为DDPG算法通过与风光储调度系统的交互获得样本数据{a_t, s_t, r_t, s_t+1}，将其存入经验池中，然后在学习调度策略时，随机从样本池中采样m个样本数据按照如上参数更新公式进行梯度更新。

图3 基于DDPG算法的强化学习框架

Fig.3 Reinforcement learning framework based on DDPG algorithm

通过离线训练出策略网络之后，可以进行在线应用，通过日前风光预测数据和调度计划，确定联合系统的最优调度计划，其调度流程如图4所示。

图4 基于DDPG算法的风光储联合系统调度流程

Fig.4 Scheduling flow chart of wind-photovoltaic-storage hybrid system based on DDPG algorithm

4 仿真算例

4.1 算法参数设置本文以西北某省的风光储联合系统为研究对象，选取该联合系统一年的风电、光伏的真实和日前预测的历史出力数据，而该联合系统的跟踪机制为通过储能配合风光场站真实出力数据跟踪日前预测结果，因此，联合系统跟踪计划为风光日前预测结果之和。该系统的风电场容量为100 MW，光伏电站容量为60 MW，储能电站为30 MW/60 MW·h。储能电站的自放电率ρ=0，充放电效率η_c=η_d=0.9，储能荷电状态上限H_soc,max为0.8，下限H_soc,min为0.2^[7]。基于本文状态空间和动作空间的维数，本文设置Actor和Critic网络中隐含层神经元个数分别为200、50和50，且隐含层均采用ReLU激活函数。而Actor和Critic网络的学习率μ_Q=0.0001，μ_π=0.00001，目标网络的软更新系数τ=0.001，mini-batch大小为64，折扣因子为0.95，经验回放池容量为10⁶，采用Adam优化器更新网络参数。4.2 模型训练

在上述参数基础上，本文采用Python语言，基于Pytorch的框架在硬件条件为Core i7-9700K CPU的计算机上进行了网络的训练。考虑到每次训练提取不同的风光数据导致总回报曲线存在一定的振荡，因此本文进行了相应的平滑处理，得到总回报收敛曲线如图5所示。通过不断的学习与训练，模型逐渐收敛，形成了可以适应不同风光出力的智能体。

图5 总回报收敛曲线

Fig.5 Total return convergence curve

4.3 算例对比为了验证本文所提方法的有效性与优势，设置了如下的对比算例进行分析。方案1：采用本文提出的基于DDPG的风光储联合优化方法，确定在不同风光出力下的联合系统运行计划。方案2：采用文献[25]提出的风光储联合发电系统储能控制策略，建立风光储联合调度模型，并且通过动态粒子群（particle swarm optimization，PSO）算法对模型进行求解，得到联合系统的运行计划。

2种不同的方案下的风光储各自在日内（24 h，时间颗粒度为15 min）的运行计划以及成本指标如图6和表1所示，其中P_inc是方案1中的各个指标相对方案2中指标的增量百分比。

图6 不同方案下的调度计划

Fig.6 Scheduling plan under different cases

表1 不同方案下的经济指标

Table 1 Economic indicators under different cases

由图6和表1可知，为了跟踪上级调度机构给定的运行计划，联合系统需要在弃风弃光和储能的投入之间取得一个微妙的平衡。而方案2主要通过频繁使用储能来跟踪运行计划，因此其储能的充放电成本达到了97350.32元，比方案1高20.85%，方案1则通过合理的弃风弃光和储能的投入来跟踪计划，虽然其弃风弃光成本比方案2高了33.32%，但是其总成本比方案2低13.05%，并且其跟踪考核成本也比方案2低44.90%。而DDPG算法的巨大优势主要有2个原因，一方面，DDPG通过动作-评估和经验回放学习机制，可以在可行域内进行充分的探索，学习到更优的联合调度策略；另一方面，对于多时间尺度下的调度问题，DDPG算法每次实际上只有风光储出力增量3个决策变量，而粒子群算法却有288个决策变量，因此粒子群算法很容易因为维数灾而陷入局部最优。

同时，在2种方法下联合系统的出力计划如图7所示，二者的跟踪性能指标跟踪偏差平方和E_s、最大跟踪偏差E_max和模型计算时间如表2所示。

图7 联合系统追踪计划曲线

Fig.7 Joint system tracking plan curve

表2 不同方案下的性能指标

Table 2 Performance indicators under different cases

由图7和表2可知，相比粒子群算法（方案2），DDPG算法（方案1）具有更好的跟踪性能，其跟踪平方和与最大跟踪偏差分别为209.79 kW²和2.12%，分别比粒子群算法低27.61%和52.88%。在保持良好跟踪性能的同时，计算效率也是DDPG算法的巨大优势，其计算时间只需要1.02 s，相比常规的粒子群算法节约了98.70%的时间。而由于风光存在间歇性和波动性，因此在联合系统中，快速得到风光储的出力计划对优化储能输出、跟踪计划以及减少弃风弃光具有重大意义。

5 结论

本文在深度强化学习的框架下，提出了一种基于DDPG算法的风光储系统联合调度策略。通过算例的对比，验证了本文方法的有效性和优势，得到如下结论。（1）通过学习风光历史出力数据，可以适应风光出力的不确定性，具有很好的鲁棒性。（2）采用离线训练、在线应用的机制得到的动态经济模型可以基于风光以及跟踪计划等状态变量，快速得到联合系统的调度方案。（3）通过合理的弃风弃光和储能的充放电，可以较好地跟踪系统的联合运行计划，实现风光储联合系统的经济运行。

（责任编辑　于静茹）

作者介绍

张淑兴（1985—），男，硕士，高级工程师，从事核能及新能源发输电技术研究，E-mail：zhangshuxing@cgnpc.com.cn;

★

杨志学（1996—），男，通信作者，硕士研究生，从事深度强化学习在电力系统中应用的研究，E-mail：1836581865@qq.com.

欢迎点击文后“阅读原文”跳转期刊官网，获取更多信息！

往期回顾

◀《中国电力》2023年第8期目录◀【精彩论文】计及源-荷功率波动性的静态电压稳定故障快速筛选和排序方法◀【精彩论文】基于交直流保护协同配合的交直流碰线保护新方案◀【精彩论文】基于弃风消纳的热网主动储热优化◀【精彩论文】面向5G边缘计算网络的联合需求响应与任务卸载策略◀ “面向新型电力系统的城市电网关键技术”专题征稿启事◀【征稿启事】“分布式智能电网的规划、运行和电力交易”专栏征稿启事◀【征稿启事】“新型能源体系下电碳协同市场机制及优化运行”专栏征稿启事◀【征稿启事】“面向碳达峰碳中和目标的清洁高效发电技术”专题征稿启事

编辑：于静茹

校对：王文诗

审核：方彤

声明

根据国家版权局最新规定，纸媒、网站、微博、微信公众号转载、摘编《中国电力》编辑部的作品，转载时要包含本微信号名称、二维码等关键信息，在文首注明《中国电力》原创。个人请按本微信原文转发、分享。欢迎大家转载分享。

继续滑动看下一个

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

比国产光刻机更重要的IPO要来了！

【精彩论文】基于深度确定性策略梯度算法的风光储系统联合调度策略

您可能也对以下帖子感兴趣

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下 一生守护”慈善项目捐赠仪式圆满举行！

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

比国产光刻机更重要的IPO要来了！

生成图片，分享到微信朋友圈

【精彩论文】基于深度确定性策略梯度算法的风光储系统联合调度策略

您可能也对以下帖子感兴趣

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！