【IBE】吴闻婧：数据挖掘在大型文化综合体运行能耗模式中的应用研究

Original 吴闻婧张轩涛智能建筑电气技术杂志 2023-02-15

▲点击查看会议详情

| 作者：吴闻婧，天津市建筑设计研究院有限公司绿建院智能技术中心副主任，高级工程师。

文章简介

本文系首届杰青论文竞赛二等奖作品，发表于《智能建筑电气技术》2019年第6期｡随着建筑智能自动系统的普及,建筑运行监测平台积累了海量的数据,导致常规的分析方法难以发现和总结建筑运行数据中隐藏的建筑用能规律｡故本文在已建成的某大型文化综合体智慧集成平台的基础上,对其中分项用电照明与插座能耗数据进行数据挖掘｡针对不同运行模式进行解读分析,为降低建筑能耗提供新的思路｡

第二届杰青论文竞赛将于6月1日截稿，详情可点击下图↓

正文

1 背景

智能建筑是集现代科学技术之大成的产物，是一个国家综合国力和科技水平的具体表现之一。

数据挖掘(DataMining，简称“DM”)是一项备受瞩目的新兴科技，被誉为大数据处理的骨干技术，集人工智能､机器学习､数据可视化和统计数学于一体的多学科产物。

虽然DM技术已经在建筑领域中使用，但是之前的研究很少充分利用DM技术来发现海量数据集，且很少对建筑智能化系统的运行数据进行挖掘分析。使用DM技术挖掘建筑运行数据库缺乏通用方法，因此本文提出一种适用于使用典型DM技术挖掘建筑运行能耗数据的运行模式。

2 建筑及数据

2.1 文化综合体描述

某大型文化综合体一期项目主要为市民服务的公共活动中心，规划总用地面积约为12ha，总建筑面积31.2万m²，绿色二星建筑群。一期项目建设内容共有“五馆一廓”六个单体，包含“一个长廊”(即文化长廊)及“五个场馆”(即演艺中心､图书馆､科技馆､美术馆､市民活动中心)。其中，文化长廊作为整个项目的核心空间，统筹衔接五个文化场馆，实现功能的有效互补，形成多元复合的空间布局，成为一个文化综合体，一期效果图如图1所示。

图1 某文化综合体效果图

本项目各个单体均为绿色建筑，各个单体内智能化系统较多，主要有安全防范､出入口､建筑设备监控､客流量分析､智能照明､能耗监测､ATSE监测管理､停车､光伏等系统，如图2所示。

2.2 数据来源及描述

某文化综合体的数据来源于五馆一廊及管控中心的智慧集成平台，包括运维管理平台和能源管理平台。运维管理平台数据主要为众多智能化子系统设备运行情况数据等。其中运维管理平台的数据来源主要各单体的的智能照明､建筑设备､客流量分析､视频监控等智能化系统，能源管理平台数据来源主要包括各单体中的电表､水表及冷热量表数据。

3 数据清洗方法

数据的分析是建立在数据正确的基础之上。然而，建筑物中各个系统数据采集系统中的测量､记录､转换､传输过程的任一环节的故障都会导致数据的缺失或异常；另一方面，当数据采集系统正常，由于特殊事件(如线路检修､消防演习等)引起各个系统的异常变化，也会导致数据异常。如果这些异常数据得不到有效的判断和校正，它们将以伪信息､伪变化的规律提供给绿色建筑的数据分析系统作为参考，进而导致错误的决策。其中能耗数据以有功电能为主，考虑到研究对象为绿色建筑，多有能耗监测平台或智能系统集成平台，数据中异常值较少，且多为维修停电导致数据为空值或0值。针对能耗系统表计数据非减的特点，经对比分析各种算法的优缺点，采用单调序列逻辑检测算法进行异常值的检测，并采用均值插补法进行异常数据处理。

3.1 异常值检测算法

有些变量呈现一种非递减或者非递增的趋势。如电表的表底值就呈现一种非递减的趋势。以呈现非递减趋势的时间序列变量为例，设x_t为非递减的时间序列变量，新监测数据x_t+1满足x_t+1-x_t=λ⩾0时，为非异常数据。然而，由于随机误差的影响，λ可能会出现在一定范围内小于0的情况，即σ<λ<0也是正常的，当λ<σ时可直接将_xt+1判为异常数据。根据概率论的知识，长时间连续出现小于0的情况也是异常的，设置连续次数上限k，若出现连续k次小于0的情况，则数据异常。图3为单调序列逻辑检测法的流程图。

3.2 异常值处理

采用均值插补法对异常数据进行处理。均值插补，顾名思义就是用调查项中有回答单元的均值替代无回答的缺失值。均值插补法就是分别计算各目标变量中回答单元的均值，然后把各组均值分别作为各变量所有缺失项的插补值，插补值的计算如下：

式中，α_i为示性变量，α_i=1是有回答，α_i=0是无回答；n₁为回答单元数。此时总体的均值估计为:

插补后的样本方差为：

式中，n₁为回答单元数，s²₁是回答单元的样本方差。

4 聚类算法

聚类分析(ClusterAnalysis)是根据事物本身的特性研究个体分类的方法。根据分类对象不同分为样品聚类和变量聚类。变量聚类在统计学中又称为R型聚类，常用相似系数来测量变量之间的亲疏程度，在实际中有着广泛的应用，一方面，通过变量聚类可以发现某些变量之间的一些共性，以有利于分析问题和解决问题；另一方面，变量聚类也可以作为某些数据分析的中间过程。变量聚类的算法一般从相似系数矩阵出发，关于变量的谱系聚类过程与从距离矩阵出发，关于样品的谱系聚类过程类似，只是由于相似系数越大，表明变量之间越相似，因此，每次应选取相似矩阵或更新的相似矩阵中主对角线以外的最大元素所对应的两个变量或两个类合并。具体求解方法步骤如下文所示。

假设对p个变量X₁，X₂，…X_p各观测了n次，观测向量为x_(j)=（x_1j，x_2j，…， x_nj)^T(j=1，2，…，p)。

变量的观测向量x_(i)与x_(j)间的相似性可以用相似系数度量。

设x_(i)=(x_1i，x_2i，…，x_ni)^T，x_(j)=(x_1j，x_2j，…，xnj)^T，则x_(i)与x_(j)的相似系数为：

显然|r_ij|⩽1，r_ij=r_ji且r_ii=1。若将x_(i)和x_(j)看做n维空间中的两个向量，则r_ij是它们的余弦夹角。变量观测向量x₍₁₎，x₍₂₎，…，x_(p)两两间的相似系数构成相似系数矩阵为：

显然，对于标准化数据，R即原观测数据的相关系数矩阵，这时，|r_ij|的大小反应了两个变量X_i与X_j线性关系的强弱。

再求距离矩阵D，D=(d_ij)_p×p，再从D出发按照样品的谱系聚类法对变量聚类。通常的变换有d_ij=1-r_ij或d_ij=1-r²_ij(i，j=1，2，…，p)。

若R为相关系数矩阵，以变量的线性关系强弱作为相似性度量，这时可令d_ij=1-|r_ij|(i，j=1，2，…，p)。

通过求得变量之间的线性关系强弱即可实现变量之间类别之间的区分。

5 文化综合体的数据分析与应用

5.1 数据清洗

数据的分析是建立在数据正确的基础之上的。然而，数据的异常会直接导致数据分析无法了解系统真实的运行状态，甚至造成对系统运行的错误评估。限于篇幅问题，本文举例对文化综合体中图书馆的照明插座用电量进行分析，利用上文介绍的单调序列逻辑检测算法进行照明插座用电量的异常数据的检测。本研究利用Python编写算法对数据清洗。为便于数据图形的查看，本文截取时间为2018年1月至2018年10月之间的数据进行图形展示，由图4可知，在2018年1月20日的13点和14点存在两个异常数据点，对此两个数据点完成了数据检测及补值。

5.2 运行能耗模式分类

本文对2018.1.1~2019.3.10图书馆建筑的照明插座耗电量按日进行分组，数据采集间隔为1h，每天有24个功耗数据。本研究采用变量聚类的方法，对建筑照明插座的日常耗电量的角度识别典型的建筑运行模式。为实现对图书馆照明插座用电量的运行模式进行挖掘分析，首先对426个完整日的数据分成426组，一组数据包括24条数据，且为实现对每组数据(即日数据)的整体特征进行识别，首先对数据进行平移处理(使用每组数据中的24条数据分别减去其均值得到新的数据组)。故最终形成一个426×24的矩阵，对此矩阵使用变量聚类的算法进行分析。本文利用SAS软件进行算法的运行处理，按照最大类别进行分类，最终聚类结果分为5类，在这里选择每类中1-R²最小的数据，代表此类的特征曲线。故可分别找到可代表时间为2018年11月5日，其值为0.0528；2018年2月15日其值为0.2187；2018年11月21日其值为0.0285；2018年7月23日，其值为0.0977；2018年9月15日，其值为0。其特征运行模式如图5所示。

5.3 模式应用及分析

由上文对图书馆照明插座对典型日用能模式进行分析，分析结果表明根据不同的时间用能情况的不同，及人的行为用能习惯，可能导致典型日用能模式的类内差异性较大。而对于采用聚类分析得到各种不同的日用能模式，需要对其特征结合专业的知识及现场的运行情况进行专业解释，才能实现对挖掘的内容进行更加合理的利用。

而其中运行模式内部在不同时刻用能不同的原因，则可能是受人为影响，比如插座的用电，用于手机､笔记本充电等。

6 结束语

本文在已建成的某大型文化综合体的智慧集成平台的基础上，利用积累的大量建筑智能化系统数据，采用聚类分析方法，重点对其中图书馆的分项用电照明插座的日用能能耗数据进行数据清洗及聚类分析，实现对照明插座日用能模式进行研究分析，并根据聚类分析的结果利用电气方面的专业知识及结合现场物业运行管理情况对各运行模式进行专业解读，发现其中合理､节能的运行模式具有重要的意义；且可根据其运行模式结合其他智能化系统(如智能照明系统､楼控系统等)及物业管理情况制定更加合理的控制模式，以实现建筑的智慧运行。

参考文献

[ 1 ] Zhang X,Qu C, Huang B, et al. Exception analysis andtreatment ofoperation data in green building[C] / / 20162nd International Conference onControl Science andSystems Engineering (ICCSSE). IEEE, 2016.

[ 2 ] Han J, Kamber M. Data mining: concepts andtechniques.The Morgan Kaufmann series in datamanagement systems [ J ]. AntimicrobialAgents &Chemotherapy, 2015, 59(3):1435-40.

[ 3 ] S.C. Zhang, C.Q. Zhang, Q. Yang, Data preparation fordata mining, Applied Artificial Intelligence 17 ( 2003)375 – 381.

[ 4 ] M. R. Amin-Naseri, A. R. Soroush, Combined use of unsupervised and supervisedlearning for daily peak load forecasting, Energy Conversion and Management 49(2008)1302 – 1308.

[ 5 ] A. Ahmed, N. E. Korres, J. Ploennigs, H. Elhadi, K.Menzel, Mining building performance data forenergy-efficient operation, Advanced Engineering Informatics 25(2011)341 – 354.

[ 6 ] 黄博涛. 基于智能系统集成平台的绿色建筑数据分析[D]. 南开大学, 2016.

作者简介

吴闻婧

高级工程师

天津市建筑设计研究院有限公司绿建院智能技术中心副主任

中国城市科学研究会会员、中国建筑学会建筑电气分会理事，擅长智能化系统设计、系统集成平台构建，智慧能源管理平台、智慧运维管理平台、智慧电力管理平台的设计、构建，建筑数据分析处理。

文章节选自《智能建筑电气技术》杂志2019年第6期，《基于数据挖掘技术的某大型文化综合体运行能耗模式分析》，文章有删减，版权归《智能建筑电气技术》杂志所有，转载请注明出处。

本文引用格式：[1]吴闻婧，张轩涛.基于数据挖掘技术的某大型文化综合体运行能耗模式分析[J].智能建筑电气技术,2019,13(06):68-72.

/精彩课程回放及小商店穿梭门/

=================================================

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

跟着南通住建局学“朝令夕改”

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

当“上帝”变为“老天爷”

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

【IBE】吴闻婧：数据挖掘在大型文化综合体运行能耗模式中的应用研究

1 背景

2 建筑及数据

3 数据清洗方法

4 聚类算法

5 文化综合体的数据分析与应用

6 结束语

/精彩课程回放及小商店穿梭门/

=================================================

点个在看，让更多人看到

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

跟着南通住建局学“朝令夕改”

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

当“上帝”变为“老天爷”

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

生成图片，分享到微信朋友圈

【IBE】吴闻婧：数据挖掘在大型文化综合体运行能耗模式中的应用研究

1 背景

2 建筑及数据

3 数据清洗方法

4 聚类算法

5 文化综合体的数据分析与应用

6 结束语

/精彩课程回放及小商店穿梭门/=================================================

点个在看，让更多人看到

您可能也对以下帖子感兴趣

/精彩课程回放及小商店穿梭门/

=================================================