从冬季拉闸限电,再谈大数据分析之难点是非结构化数据
昨天中午,跟协会的年轻人做培训,专门讲如何从文件、文章、讲座PPT等非结构化数据中,人工提取结构化数据进行统计分析,来进一步提到新闻报道深度的话题。培训中列举的我的四个案例,其中一个是今年八月份我做为评委,审阅电促会征集的几十篇电力行业大数据论文时,捎带手儿所做的统计分析,其中一个分析结果是这样的:相当一部分的论文作者是来自偏远地区、电网公司的基层运检部门、90后职工、撰写的非本专业论文。这背后反映了什么问题,是显而易见的。 |
最近几天,南方几省电力供应紧张,导致拉闸限电一事,引发了广泛的关注,发改委的第一个反应是限制电煤价格不超过640元每吨,第二个反应是向公众解释为什么的两个主要原因,一是工业生产旺盛;二是冬季有点冷,南方几省居民用电量增加;其实,这些原因连电力系统的一些人士,都未必完全认可。另外,国网公司也于近日发布了应对电力供需矛盾的八项紧急措施,这背后反映了没有提前预测、没用提前预案的仓促应战和忙乱。
早上群里同学爆料,这次拉闸限电还闹出了一些小乌龙:某高层民宅被限电,电梯无法运行,人们上下楼基本靠腿儿,属地供电局解释是:把该居民楼标记成了商业用电。这种“错误”的确有点匪夷所思,怎么可能发生呢?因为居民用电和商业用电的电价都不一样,营销系统早该可以发现的。所以我认为,这不是供电局营销系统的问题,大概率问题出在营销系统与调度系统的衔接上。没准营销部背了黑锅。 |
一、这次冬季所发生的电力供需矛盾,可以被预测吗?
我认为应该是可以的,因为至少我在10月15日,就意识到了今年冬天会有点冷,气温变化,不管是昼夜的短周期还是季节的较长周期,都会影响居民用电量的上升和下降,这是一个负荷预测问题,而这种预测,技术上虽有点难度,但应该没有太大难度,关键是有关部门给忽视了。下面会将讲到非结构化数据的分析和预测问题。
在发改委发出限煤令之前,澳大利亚的铁矿石对中国出口暴涨了94%,有关部门为了反制澳大利亚,神奇般的限制了澳洲煤炭的进口,这是一个极其严重的决策失误,因为澳大利亚的煤炭比我们自己生产的煤炭价格还要低一些,发电企业是比较喜欢外煤的。
焦炭价格自今年4月份1568的低点一口气上涨到昨天的2746,上涨幅度高达75%,这没有引起有关部门的重视,又是一个懒政行为。冬季来水减少,水电发电量下降;光伏出力在冬季也会减少,这都是规律的东西,显然没有被认真的对待。另外社会舆论对新能源的大肆吹捧,不切实际的退煤舆论浪潮,也有可能影响了发电集团提前检修煤电机组的计划和积极性,导致发电高峰,煤电机组有故障现象发生,但也不排除煤电价格高企,发电亏损,导致火电厂谎报军情的可能发生。
总之,最近发生的电力供需矛盾紧张,应该被提前预测、提前应对的,但本不该发生的事情,却发生了;或者本不该很严重的电力供需矛盾却被激化了。除了主要问题是懒政和惰性外,也反映了一些技术方法问题。
对于电力供求关系紧张的技术和数据分析,很多是基于非结构化数据的,好几年前,我写文章,把数据分为四个象限:结构化数据、非结构化数据、实时数据、非实时数据。无容置疑,无论从重视程度还是技术方法上,非结构化数据从实时数据到非实时数据,这两个象限的数据应用,显然是落后的。
大数据的分析,基本上可以分为两大类,一类是对当前和过去历史数据的统计分析,就像今年电网公司所作的复产复工监测和报告,也像文章开头所讲的我对非结构化文档所做的结构化提取和分析;一类是对未来的预测,就像这次电力供需矛盾,本该更早做的预测这样。 |
昨天下午在上地跟某互联网企业做数据资产评估和定价讨论时,我举了一个例子来说明,数据评估和定价的确是一件很困难的事情。
1960年前后,大庆油田投产,一下子摘掉了中国贫油的帽子,为工业发展奠定了很好的基础,那时候全国人民为之沸腾、为之欢呼跳跃。包括人民日报在内的国内媒体也进行了大量报道,但那时候的新闻报道还是很战略的,没有讲大庆油田在什么地方,但狡猾的日本人很快就知道了大庆油田在哪里,小日本是如何做到这些的呢? 据说,从王进喜穿大棉袄的照片、原油列车上的积雪厚度、以及一两个很不起眼的小地名,狡猾而聪明的日本人,从气象资料和伪满洲国地图等方面入手,很快确定了大庆油田的准确位置,如果还在战争年代,小日本派过来一队轰炸机,那么大庆油田将不堪设想。 |
这个案例,向我们展示了什么呢?我认为至少有三点:一是数据资产的评估和定价是非常困难的,几篇新闻稿、几张照片、一个不起眼的小地名,会有什么价值的呢,这要看什么人、出于什么目的、用什么方法来解读和分析这些数据。二是非结构化数据分析是比较困难的,也是非常有价值的。三是情报战线的情报人员,是大数据分析师们的好榜样,至少几百年以来,他们所使用的方法、他们的战略和战术视野,是值得我们研究、借鉴和学习的。
我国最伟大的气象学家竺可桢老先生,堪称大数据分析的鼻祖,定量描述中国5000年以来气候变化规律的著名竺可桢曲线,就是人家老先生非结构化数据分析的经典案例,这一研究成果在1972年,想想看,那时候我们这些晚辈都在干什么呢?我刚上小学二年级,很多人还在穿开裆裤尿床玩泥巴呢。还有更加神奇的呢,文革不得意的时候,竺可桢老先生也没有放弃气候的研究,人家每天在院里认真的扫地,扫出来的尘土,用于研究北京地区大气降尘与气候的关系,感兴趣的朋友可以阅读《竺可桢:文理兼修的气象学家,大数据的鼻祖》(新浪博客文章,百度可搜)。
2020年第19届玉雕天工奖
关于碳中和的若干很不成熟的思考....
人类能阻止气温上升吗?实现碳中和最经济、最有意义、效果最好的方法,各是什么?