查看原文
其他

【精彩论文】基于深度强化学习的建筑能源系统优化策略

中国电力 中国电力 2023-12-18

基于深度强化学习的建筑能源系统优化策略


石文喆1,2, 李冰洁1,2, 尤培培3, 张泠1,2

(1. 湖南大学 土木工程学院,湖南 长沙 410082; 2. 建筑安全与节能教育部重点实验室,湖南 长沙 410082; 3. 国网能源研究院有限公司,北京 102209)


摘要:针对建筑能源系统中需求侧的负荷不确定性与供给侧的可再生能源随机性,提出一种基于深度强化学习的建筑能源系统管理优化策略。首先,搭建能源系统供需侧研究框架并建立设备模型。然后,将实时阶段下的建筑能源管理问题构建为马尔可夫决策过程,利用深度强化学习理论,以最小化用电成本、保证室内热舒适水平和最大化消纳可再生能源为优化目标,采用决斗双重深度Q网络算法进行训练,得到训练后的算法可以根据实时环境参数做出自适应控制决策。最后,通过在建筑能源系统案例中的应用,将该策略与传统的基于规则的控制策略相比较,结果表明,所提出的优化策略使用电成本降低11.03%,热不舒适时长降低89.62%,未消纳光伏发电量降低10.43%。


引文信息

石文喆, 李冰洁, 尤培培, 等. 基于深度强化学习的建筑能源系统优化策略[J]. 中国电力, 2023, 56(6): 114-122.

SHI Wenzhe, LI Bingjie, YOU Peipei, et al. Optimization strategy of building energy system based on deep reinforcement learning[J]. Electric Power, 2023, 56(6): 114-122.


引言


中国建筑运营阶段的能源消耗占全国能耗的21.7%,且节能减排潜力在三大能源消费领域最大[1]。合理建设并利用建筑能源系统(building energy system,BES)可以有效提高建筑运营阶段的可再生能源利用率,减少二氧化碳的排放[2-3]。配置储能装置是建筑能源系统实现能源供需两端平衡、消纳可再生能源、提高用户用能经济性的有效手段[4]。然而,目前配置储能装置的建筑能源系统存在运行不稳定、能量储存和释放效率差等问题,因此为建筑能源系统提供有效的实时控制策略,有助于提高系统运行性能,实现系统能源管理稳定高效。传统的建筑能源系统控制策略优化多采用启发式算法,如遗传算法、粒子群算法或混合整数线性规划[5-7]等。启发式算法可以给出一定条件下的最优解,但往往依赖于实时模型预测控制(model predictive control,MPC),导致实际优化效果主要取决于建筑能源系统模型的精度[8-9]。复杂多变的实际场景给模型建立和校准带来了巨大挑战,耗费的计算时间更多,同时也无法保证模型的精度,因此采用启发式算法优化得到的控制策略无法保障建筑能源系统的实际应用效果[10]。随着人工智能和大数据技术的发展,无模型、以数据驱动为核心的强化学习(reinforcement learning,RL)作为解决序列决策问题的有效手段,在各种能源系统中得到广泛应用[11-15]。文献[16]提出了一种基于马尔可夫决策过程(Markov decision process,MDP)的能源管理方法,在满足用户用电需求的情况下,给出的最优控制方案能够降低用户运行费用17.81%。随着建筑能源系统的复杂化,连续性的状态空间会导致维数灾难问题,利用深度学习(deep learning,DL)的表征能力对强化学习中的状态、动作等参数进行拟合,由此形成的深度强化学习(deep reinforcement learning,DRL)算法可以很好地解决维数灾难问题,实现算法效能的大幅提升[17]。文献[18]分别利用DRL中的深度Q网络和双重深度Q网络对家庭能源系统设备进行调度,并与粒子群算法优化结果对比,验证了DRL算法更优异的性能。文献[19]以最小化购电费用为目标,利用DRL中的双重深度Q网络对储能系统进行控制优化,得到的充放电策略可以保证系统运行的经济性。

上述基于强化学习提出的建筑能源系统优化控制策略侧重点在于提高用能经济性,但针对建筑能源系统运行中的实际情况,控制室内温度和促进可再生能源本地消纳也应作为控制策略的重要评价指标。本文以最小化用能成本、保证室内热舒适性、最大化可再生能源本地消纳为目标,提出一种基于深度强化学习的建筑能源系统优化控制策略。首先,建立了建筑能源系统各组件模型,包括光伏发电、蓄电池储能和电热泵模型。然后,定义了决策过程中状态、动作空间及奖励函数,选用深度Q网络(deep Q network,DQN)和决斗双深度Q网络(dueling double deep Q network,D3QN)算法,并使用离线数据集对算法进行训练,证明了D3QN算法的优越性。最后,分别利用训练后的D3QN算法和传统基于规则的控制策略,应用于同一场景下的建筑能源系统,对比分析了2种运行策略下建筑能源系统的性能。


1  建筑能源系统结构及设备模型


建筑能源系统包括光伏发电组件、蓄电池储能装置以及电热泵,具体结构如图1所示。


图1  建筑能源系统结构

Fig.1  Structure of building energy system


1.1  光伏发电组件

决定光伏发电组件功率输出的主要因素包括局部太阳辐射强度、光伏板面积和光伏系统发电效率,其中发电效率主要考虑光伏系统逆变器和并网之间的转换效率[20]t时刻光伏发电功率

式中: Er 为太阳辐射,kW/m2Apv 为光伏板总面积,m2; ηpv 为发电效率,设定为0.104;k为温度系数,设定为 −3.7×10−3 ; Tref 参照温度,设定为25 ℃; Tcell 为光伏发电计算温度,具体表示为式中: Tamb 为环境温度。1.2  蓄电池储能组件蓄电池储能组件可以消纳可再生能源和缓解负荷的不确定性[21]t时刻电池荷电状态,定义为电量与电池容量的比值,具体表示为式中: σ 为蓄电池的自放电率; ηch ηdis 别为蓄电池的充、放电效率; 为充放电功率; Wb 为电池容量,kW·h; Δt 为时间步长。储能系统的约束包括充放电功率和电池容量状态,具体表示为式中:分别为蓄电池荷电状态的最小值、最大值; Pmin Pmax 分别为蓄电池充放电功率的最小值、最大值。1.3  电热泵组件冬季建筑内空气温度的变化与室外温度、热泵运行参数和建筑热参数等相关[22],故t+1时刻室内温度

式中:t时刻室外温度; Cb 为建筑热容量; Ri−a 为室内和环境之间的热阻; PHP 为电热泵额定功率;t时刻空调运行状态动作; αCOP βCOP 为热泵线性COP系数,分别设定为0.0606和2.612; Aw 为窗户面积;为窗户太阳辐射。


2  基于深度强化学习算法求解过程


2.1  马尔可夫决策过程天气状况、电价以及光伏发电等不确定性因素给能源管理系统的实时最优策略制订带来了极大的挑战。本文旨在获得最优的系统时序性决策链,最优意味着当下的决策不仅要考虑下一步的效果,还要考虑该决策所产生的后效性。为此,需要简化时序模型的复杂度,故提出马尔可夫假设,即假设系统下一时刻状态仅与当前时刻状态有关,而与之前状态无关[23]

本文将该优化问题表述为1个马尔可夫决策问题,具体表示为(S, A, R, π),其中S为环境状态集合,A为智能体动作集合,S×A→R为奖励函数,π为智能体策略集。在每个时间步骤t中,智能体作为控制中心,通过观察环境状态 stS ,并基于策略π选择动作 atA(s) 后,智能体得到奖励 r(st,at) ,同时环境变成下一个状态。智能体与环境交互如图2所示。


图2  智能体与环境交互

Fig.2  Schematic of the agent interacting with the environment


2.2  要素定义

1)状态空间。状态空间包含一组与环境相关的已知物理量,在能源管理系统调度的过程中,t时刻智能体观察到的环境状态空间St

式中: pt 为实时电价,元/(kW·h)。2)动作空间。智能体通过观察环境状态判断后,作出控制策略的集合即为动作空间。在本文系统中,控制变量包含热泵的运行功率和蓄电池储能系统的充放电状态,将其分别定义为离散动作变量,具体表示为式中:分别为热泵和电池离散动作集合;为热泵动作取值(0,0.25,0.50,0.75,1.00),从0到1表示热泵负荷逐渐增大;为储能系统动作取值(1,–1,0),分别表示充电、放电和不充不放电。3)奖励函数。对于本文提出的能源管理系统,智能体优化的目标包括降低用电成本、合理控制室内温度和消纳光伏发电量。为了实现多目标优化,提出多个任务奖励函数来实现联合控制。电力成本奖励函数可以表示为式中: ζ权重因子。室内温度奖励函数可以表示为式中: Tmax Tmin 分别为设置室内舒适温度区间的上、下限; Dt 为室内温度没有控制在规定区间内的惩罚值; ζ2 为权重因子。蓄电池储能过度充放电奖励函数可以表示为式中: DSOC 为蓄电池过度充放电的惩罚值; ζ3 为权重因子。当时,蓄电池储能系统充放电得到的奖励函数可以表示为式中: ζ4 为权重因子。为鼓励光伏发电本地消纳,将此时充电动作的奖励函数设定为正值,放电设定为负值。当t时刻电价为峰值或谷值时,蓄电池储能系统充电得到的奖励函数可以表示为式中: ζ5 为权重因子。当电价较高时,充电动作得到负的奖励值;当电价较低时,充电动作得到正的奖励值。当t时刻电价为峰值或谷值时,蓄电池储能系统放电得到的奖励函数可以表示为式中: ζ6 为权重因子。当电价较高时,放电动作得到正的奖励值;当电价较低时,放电动作得到负的奖励值。综上,得到综合奖励函数 rt 充放电次数奖励函数 rSOC 式中: ζ7 ζ8 为权重因子; nt 表征t时刻与t–1时刻的充放电状态是否发生变化的参数,如果发生变化取值为1,否则为0。2.3  算法求解1)Q学习。它是解决强化学习问题的一种常用方法,通过定义Q函数,即状态动作价值函数,并采用贝尔曼方程进行更新得到Q表格,Q值更新方式可以表示为式中: Q(st,at) 为状态动作价值函数,表示在状态 st 采取动作 at 产生的价值; γ 为折扣因子,其大小代表着未来奖励的重要性; α 为学习率。运用贝尔曼方程更新Q函数的核心思想在于,评估当前状态 st 的决策动作 at 的效果时,不仅要考虑这一步决策所产生的奖励函数 rt+1 ,而且要考虑当前的动作对于未来的持续性收益。2)深度Q网络。尽管Q学习算法经过更新可以逼近Q函数最优值,但是对于本文提出的环境状态空间,如温度、太阳辐射和电价等属于连续状态空间,此时采用传统强化学习算法会出现“维数灾难”问题。为此,提出价值函数近似的方法,即用参数 θ 构造出深度Q网络替换Q学习中的价值函数[24],即式中:分别为状态s下采取动作a的价值函数近似值和准确值; θ 为价值网络权重系数;采用这种利用深度神经网络近似取代Q函数的方式,可以得到DQN。DQN的目标为最小化损失函数 L(θ) ,即式中: yt 为目标网络函数,可以表示为式中: θ为目标网络权重系数。3)决斗双深度Q网络。D3QN结合双深度Q网络和决斗深度Q网络[25]。双深度Q网络相较于DQN算法,在计算目标Q值时将动作选择和动作评价分离,用评估网络选择动作,目标网络确定动作的价值,有效避免了过估计问题。那么, yt 可以表示为

决斗深度Q网络提出了一种新的神经网络结构,如图3所示。与DQN中深度神经网络在接受状态值直接输出Q值所不同的是,决斗深度Q网络将输出Q值分成了状态价值V和动作优势价值A,从而避免了网络训练中过拟合问题,加快了训练速度,具体表示为


图3   D3QN神经网络结构

Fig.3  D3QN neural network structure


式中: ω 为全连接层参数; αβ 分别为动作优势价值A和状态价值V支路的全连接层参数。

D3QN的算法训练过程如图4所示。


图4  D3QN训练过程

Fig.4  D3QN training process


3  算例分析


3.1  场景描述

针对冬季工况下的系统优化,选取2018年1月、11月和12月的湖南省长沙市实测气象数据进行模拟,如图5所示。光伏板面积设定为40 m2,根据气象数据计算得到冬季光伏发电量如图6所示。储能装置型号为6-GFMJ-200,容量为7.2 kW·h,充放电效率为90%,充放电功率设定为1.44 kW,荷电状态的最大/最小值为0.9/0.2。为考虑实时电价对系统策略的影响,采用澳洲能源网站中相似气候条件下冬季实时电价数据,高峰电价和低谷电价分别设置为0.7和0.4元/(kW·h),余电上网电价为0.4548元/(kW·h)。电热泵与建筑相关参数如表1所示,将室内舒适温度上限和下限分别设置为22 ℃和18 ℃。


图5  2018年湖南长沙气象参数

Fig.5  Meteorological parameters of Changsha, Hunan in 2018


图6  电价与光伏发电功率

Fig.6  Electricity prices and photovoltaic power


表1  热泵与建筑参数

Table 1  Heat pump and building parameters


3.2  基准模式

针对本文建筑能源系统,提出如下控制策略作为基准模型。电热泵和储能系统分别通过调整运行功率和充放电状态控制系统运行。其中热泵运行功率根据当前时刻室内温度和电价确定;充放电状态是在规定电池荷电状态范围内,根据当前时刻电价与光伏发电量确定。由此可知,基准模型的优势在于能够根据当前环境参数给出确定的控制策略,并及时进行动态调整来应对环境变化,从而满足用户的舒适性和经济性需求。具体控制策略如表2和表3所示。


表2  基准模式热泵运行策略

Table 2  Baseline mode heat pump operation strategy


表3  基准模式储能运行策略

Table 3  Baseline mode energy storage operation strategy


3.3  参数设置设置最小优化步长为15 min,优化周期设为31天,即周期内含有2976个优化时段。系统模型的训练过程使用11月和12月数据集,训练共进行1000个回合,训练时随机选取其中连续31天的数据;测试过程使用1月数据集进行性能验证。D3QN算法中Q网络和目标网络各包含3个全连接隐藏层,各层神经元数分别为128、256、256,并使用整流线性单元作为隐藏层的激活函数,选用Adam优化器来更新网络权重。主要超参数包括学习率 α =0.0001,折扣因子 γ =0.99,最小批量为32,网络更新速率τ=0.002。3.4  效果及对比分析

为探究不同深度学习算法在训练过程中的特性,本文选取D3QN和DQN算法并设置相同的超参数,对比研究迭代过程中的奖励函数曲线和均值奖励函数曲线,如图7所示。在前期训练过程中,2种算法的奖励函数都有不同程度震荡,这是由于智能体尚处于探索阶段,存在很多随机动作选择。但经过多次迭代之后,2条奖励函数曲线的收敛趋势基本一致,后期奖励函数趋于稳定且稳定值接近,都取得了良好的训练效果。通过对比D3QN和DQN曲线的缩略图,可以发现二者的奖励函数值在相同的训练回合内,D3QN总体较高,收敛速度更快,这得益于D3QN在计算目标Q值时将动作选择和动作评价分离,避免了过估计,改进了神经网络结构,从而加快了收敛速度。


图7  2种算法训练过程奖励函数对比

Fig.7  Comparison of reward functions during training of two algorithms


采用基准模型和D3QN算法在同一场景下进行优化,并从供需侧的角度对优化结果进行讨论分析。需求侧的控制策略需要权衡经济性和热舒适性,要求模型对电价与天气条件的变化即时响应。采用1月份环境状态参数对2种优化模型进行评估,如图8所示。在一个月的时间尺度上室外温度有较大波动,基准模型虽然大部分情况下能够满足室温要求,但是在室外温度持续偏高(第8~12天)或者偏低(第22~28天)时,控制效果并不理想,热不舒适时长共为3975 min。这是由于基准模型的控制策略面对一些特殊情况时,不具备自主调节的能力;对比D3QN优化模型则较好地将室内温度控制在舒适区间内,热不舒适时长降低为195 min,充分体现了D3QN优化模型具有较强的适应性。


图8  1月份室温对比

Fig.8  Room temperature comparison in January


为更直观地对比2种控制模型的区别,选取1月典型日,如图8中黑色虚线所示,得到热泵功率曲线如图9所示。可以看出,2种模型对电价变化的响应基本一致,即高电价时功率相应减小,低电价时功率增大。如在电价较低的时段06:00—08:00,二者的热泵功率都处于较高的状态,而在时段19:00—21:00,二者的热泵功率都出现了不同程度上的降低。但是在D3QN优化模型下热泵的功率变化幅度更大,对电价信号更加敏感,说明智能体经过学习面对不确定性环境能做出更灵活的决策。


图9  1月份典型日热泵功率对比

Fig.9  Comparison of typical daily heat pump power in January


能源供应侧评价储能系统控制策略的标准包括2点:1)蓄电池的充放电策略响应峰谷电价以减少用电成本;2)在光伏发电较多的时段,蓄电池应尽可能采取充电策略实现可再生能源的本地消纳。选取1月份典型日,得到2种控制模型下的蓄电池充放电功率如图10所示,基准模型控制下储能系统的充电时段分别在01:00—02:00(低谷电价)和09:00—13:00(高光伏发电),放电时段则集中在14:00—17:00(高峰电价)。经计算电成本为11.36元,未消纳光伏发电量为5.25 kW·h。D3QN优化储能系统的整体控制逻辑与基准模型一致,不同的是充放电频率变高,主要体现在00:00—07:00和18:00—24:00(无光伏发电)时段,储能系统在电价升高时放电,电价降低时充电,以保证供电的经济性。经计算在该典型日用电成本为8.76元,未消纳光伏发电量为4.84 kW·h,相较于基准模型分别降低22.89%、7.81%。


图10  1月份典型日储能对比

Fig.10  Comparison of typical daily energy storage in January


通过分析以上2种控制模型,可以看出经过训练的D3QN算法的优化结果无论是在能源需求侧还是在供给侧,都强于基准模型,量化对比完整的优化周期(31天)各类评价指标,如表4所示。相较于基准模式,D3QN模型用电成本降低11.03%,热不舒适时长降低89.62%,未消纳光伏发电量降低10.43%。


表4  2种控制模型结果对比

Table 4  Comparison of the results of the two control models


4  结论


为解决建筑能源系统中实时阶段的优化控制问题,有效应对能源需求侧和供应侧的随机性和不确定性,本文提出基于深度强化学习的建筑能源系统管理优化策略,得到如下结论。1)该优化策略不需要预测数据,而是利用离线数据集对算法进行训练,得到D3QN算法对不同的天气、电价等环境参数表现出很强的适应性,能够为建筑能源系统提供合理的实时控制策略,体现了深度强化学习算法的泛化能力。2)在本文研究的建筑能源系统中,对比DQN和D3QN算法的训练过程,D3QN算法在相同超参数的情况下收敛速度更快。3)与基于规则的控制方法相比,基于深度强化学习的控制策略灵活性更强,同时在不同的环境下权衡优化目标更具备优势。后续研究需继续拓展应用场景,如为建筑能源系统增加更多模块,或根据不同建筑类型提供个性化控制策略,同时考虑引入更多控制目标使控制策略更加完善,实用性更强。(责任编辑 于静茹)


作者介绍

石文喆(1998—),男,硕士研究生,从事深度强化学习在建筑能源系统中的理论研究,E-mail:shiwenzhe@hnu.edu.cn;


张 泠(1969—),女,通信作者,博士,教授,从事建筑能源系统柔性用能研究,E-mail:zhangling@hnu.edu.cn.


欢迎点击文后“阅读原文”跳转期刊官网,获取更多信息!





 往期回顾 


《中国电力》2023年第6期目录
【精彩论文】微电网调度模型的寻优性能与求解效率改进优化【精彩论文】基于语义信息距离解耦的变电运维多类别缺陷图像检测【精彩论文】500 kV交流线路对并行±800 kV直流线路带电作业人员安全防护的影响【精彩论文】供电分区场景下基于数据驱动的负荷密度综合评估及预测方法【征稿启事】“分布式智能电网的规划、运行和电力交易”专栏征稿启事【征稿启事】“新型能源体系下电碳协同市场机制及优化运行”专栏征稿启事【征稿启事】“面向碳达峰碳中和目标的清洁高效发电技术”专题征稿启事【征稿启事】“新型电力系统低碳规划与运行”专栏征稿启事

编辑:于静茹
校对:王文诗

审核:方彤

声明

根据国家版权局最新规定,纸媒、网站、微博、微信公众号转载、摘编《中国电力》编辑部的作品,转载时要包含本微信号名称、二维码等关键信息,在文首注明《中国电力》原创。个人请按本微信原文转发、分享。欢迎大家转载分享。

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存