统计的力量
早上五点钟莫名其妙的醒了,一翻手机正好看到了蝈蝈老师的文章《用好简单的算法》,蝈蝈老师写文章一惯的手法是简洁、直达要害部位、直击心灵深处,几分钟就看完了,且收获很大,立刻给蝈蝈老师留言:
蝈蝈老师,你说的那位教授太有趣了....,工业场景以及其他场景,用统计方法有两种情况,一是没有因果关系或者还没有找到明确的物理学规律,例如设备故障模型和故障预测,因为有了物理学规律,就有了明确的数学表达式,就不需要统计了。二是有物理学规律,但环境干扰因素较多,弄脏了物理学规律和数学表达式,需要用一些统计学的方法剔除干扰和噪声,我们以前在做地震勘探和后期数据处理时,花了很大的力气在勘探环节和后期数据处理环节,在做这种增强信号,抑制噪音的工作。 |
比如进气量与锅炉的燃烧温度在一个区间内是一个看似线性的关系,当锅炉厂家设计出新炉子时,并不一定准确知道工况情况下进气量和燃烧温度是什么关系,通过多次试验,测出了上面的数据,于是用最小二乘法就可以拟合出一个近似线性公式:锅炉温度=A+B*进气量,这个公式就可以用到锅炉进气量的自动化控制系统中去了。
但是,当进气量小于某一个数值或者大于某一个数值时,锅炉温度与进气量就不是一个线性关系了,虽然总可以找到一个非线性公式来拟合这条试验曲线,但是自动化控制系统就不好做了,锅炉运行的风险也许就加大了。
消防队员用鼓风机消灭森林火灾就是这个道理,风可以助火势,但是风太大还可以用来灭火。我们以前冬季用蜂窝煤取暖,都知道每天晚上加上去的一块蜂窝煤,要错开眼儿,否则半夜有可能就烧完了。还有更加复杂的曲线,例如变压器铁芯的迟滞回线,来回的路径都不一样。 |
对锅炉而言,如果锅炉的结构再复杂一些,有不同的进气位置,再考虑不同热值的煤和煤的含水量,那么多种参量影响下的锅炉温度就变成一个三维的曲面。这种多目标的锅炉燃烧寻优控制,要不靠人工经验,要不靠由人工经验转化过来的人工智能(就像京东做的那样),传统火电厂的SIS系统一般而言只能有去无回,难以实现闭环的伺服控制了。
在电网领域,设备的类型很多,每一种设备都有很大的安装量,但是具体到同一个电压等级的一类设备,由于制造商不同、安装的地理气候环境不同、所承载的负荷不同、运行年限不同、加载的二次设备不同、甚至负荷端的谐波干扰影响,都会导致其故障发生的频度和严重程度也会不同,只能用统计学的方法来统计某一类设备的故障规律,但这种统计规律仅仅具有普遍性指导意义,例如电网公司设备部门做年度检修预算时可以参考,但是针对某一个设备,似乎并没有实际意义。所以,泛在电力物联网这个东西是不能缺少的,在关键节点、关键设备和关键元器件要施加泛在的监控手段,从监控最基本的物理量变化,来预测设备的健康状态,这跟监测人的体重、血压、血脂、血糖等基本指标是一样的道理。那么,关键节点、关键设备和关键元器件,是如何获得的呢,这又回到统计的价值了。
如果电网设备故障规律的统计分析工作做的到位,在关键节点和关键设备(例如凉山州110千伏马道变电站10千伏出线处,或者电台线85-1号电杆上)加装了监测装置,尤其是隔离装置,就有可能避免三月底的严重森林火灾事故,或许就不会有19人死亡、3人受伤、毁林近800公顷和近亿元的经济损失了。当然,凉山州这次火灾,主因是风力比较大,电力故障算是风灾的次生事故。
统计的力量是很大的,它可以帮助我们寻找不曾想到或者不曾意识的、隐藏很深的客观世界各因素之间的变化关系或者规律。但我们也不能依赖于统计的力量而止步不前,因为统计虽可以帮助我们发现规律,但规律背后的因果关系、导致规律变化的驱动因素,还需要人的脑袋去研究。 统计是一个很复杂的学科,我们过去学的也仅仅是皮之一毛,现在很时髦的大数据分析,其实很多很多都是过去的统计学方法,或者基于统计学方法又加了一层深度学习的东西,基于深度学习的各种AI算法,也是为了更好的发现规律,同样,规律背后的动因关系,仍需要我的脑袋。所以,非常认同蝈蝈老师文章中所讲的,算法一定要简单,只要能解决问题就行,因为太复杂、尤其是故意整的很复杂、很炫的算法,说不定还隐藏了更多风险。算术平均就能解决的问题,就不要用加权平均,加权平均能解决的问题,就不要用移动加权平均。 |