查看原文
其他

科普:用最简单的方法,讲解统计分析、大数据分析和人工智能算法之间的差别

雕刻师 石头那些事儿 2021-10-15

今天不谈云计算,为什么呢?因为云计算根本不是计算,而仅仅是一种方法。最近很多年,有些科技的东西,起的名字却不怎么科技,例如:云计算大数据区块链....。原因有两个,一是最近二十年,全球进入了造词狂热期,还没搞清楚是怎么回事呢,就着急嘛慌的赶紧弄个新词儿出来;二是英语词汇真的匮乏了,面对新世界和新事物,很难找到合适的词汇来表达了。

疯狂造词的背后,反映了冲动与狂热,人类每隔一些年,都会有一次无法抑制的狂热期,狂热的背后是人的本性在作怪,每一次狂热之后,都会留下一地鸡毛。面对这一挑战,鸡们很生气,说:他妈的,我们招谁惹谁了

一、大数据到底是个什么鸟?

几年前有一阵子,CCTV热衷于报道大数据,把Execl表格能做的事情,也称作是大数据,这让我很纳闷。自从大数据一词诞生后,把很多人都搞蒙了,也包括我在内,很长一段时间都搞不大明白,大数据到底是个什么鸟?其实大数据这东西,到现在也没有一个被广泛认同的定义和说法。

这年头,能征服多少人,不在谁有道理,而主要看谁的嘴更大。

例如IBM的嘴就很大,把大数据表达为5个V,就征服了不少人,IBM的这5个V大概是:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。有些人没有被IBM所征服,很不服气,于是乎针对大数据又折腾起了所谓的小数据。我也不怎么服气,因为我认为5个V中,至少VolumeVelocity是值得商榷的,而且缺少了一个很重要的特征,就是弱相关性(Weak Correlation,感兴趣的读者可以阅读文章《大数据最关键的特征:弱相关性》、《大数据的关键特征和IBM的5个V》和《物联网和大数据,跨“三界”就能奠定你的江湖地位》(新浪博客文章,百度可搜)。


二、传统统计和大数据分析的不同

前几天的文章制造业的ATO、定制化、自动化和智能化自动化和智能化在制造上的区别,大致说了个七七八八。文章《统计的力量》把统计这件事说了个七七八八,主要观点可以表述为:

用统计方法有两种情况一是没有因果关系或者还没有找到明确的物理学规律,例如设备故障模型和故障预测,因为有了物理学规律,就有了明确的数学表达式,就不需要统计了。二是有物理学规律,但环境干扰因素较多,弄脏了物理学规律和数学表达式,需要用一些统计学的方法剔除干扰和噪声。

我们以前在做地震勘探和后期数据处理时,花了很大的力气在勘探环节和后期数据处理环节,在做这种增强信号,抑制噪音的工作。

6年前,我斗胆把大数据分为四种数据类型,分别是结构化数据、非结构化数据实时数据、非实时数据,这四种情况的两两组合,分为四个象限,分别是实时的结构化数据、实时的非结构化数据、非实时的结构化数据和非实时的非结构化数据,并把我熟悉的一些场景放了进去,以便更好的理解。

传统的统计学方法主要用在实时和非实时的结构化数据分析上面。

如红框所示,我理解,所谓的大数据分析,是把传统的统计学方法从结构化数据拓展到了非结构化数据领域。然而,我们必须要知道的是,这种拓展不是大数据概念出现以后才有的,很早很早就有了,尤其是从非结构化数据向结构化数据方向的分析,例如我国著名气象学家竺可桢老先生早年研究出来的5000年以来我国气候的变化规律,感兴趣的读者可以深度阅读《竺可桢:文理兼修的气象学家,大数据的鼻祖》(新浪博客文章,百度可搜)。


三、大数据分析的难点是什么?

2014年5月,我在文章《大数据(BigData)非结构化数据的分析难点,5182次阅读》和《大数据(Big Data)分析的断层,481次阅读》(新浪博客文章,百度可搜)中,以革命样板戏红灯记中关于木梳的对话和虚构但有可能发生电力系统鬼故事为场景,介绍了非结构化大数据分析的难点是什么。


大数据分析的难点是如何把非结构化数据做结构化解析。


2020年9月,我作为评委参加了电力大数据论文的复评工作,捎带手儿对获得一等奖的10篇大数据论文做了一个统计分析,这个统计中,就涉及到很多的非结构化数据,手工做这些分析,要先把论文中的很多非结构化信息归纳、提炼成结构化数据,然后才能进行统计分析。


我尝试用手工分析非结构化大数据,是2019年在武汉从事电网资产全寿命劳动开始的,我们作为电网资产全寿命周期管理项目的支撑工作组成员,要对电网公司15个单位上报的月度和季度工作报告,进行汇总分析,好在人家业主有很规范的项目工作程序和报告文本规范,做起来相对比较容易一些。


另一个非结构化数据的手工劳动,也跟武汉有关,就是去年一月份,从武汉最早公布的17例新冠死亡案例中,总结归纳出新冠疫情的一些规律性东西,感兴趣的读者可以阅读文章《新冠一周年祭,看看什么应该被总结、应该被重视?》。


四、非结构化数据分析的人工智能

对于工作量较小的非结构化数据进行统计分析,手工还是可以做一些工作的,但是如果遇到工作量很大的非结构化数据分析,可能就需要人工智能技术来帮忙了,上图蓝色虚线所表达的,就是期待人工智能技术可以发挥作用的领域,目前我还是认为,人工智能技术有可能提到工作效率,但质量和效果,还不能令人满意。2008年Google搞了一个叫flu trends的项目,用互联网舆情来预测流感,据说这个项目失败了,这是一个典型的从非结构化数据向结构化数据跨越的案例,感兴趣的读者可以阅读我在2014年写的文章《Google大数据案例给我们带来的反思》(511次阅读,百度可搜)。


人工智能用于非结构化数据分析,尤其是文字材料和语音方面,技术基础大概是NLP(自然语言理解)和知识图谱这两样东西,感兴趣的读者可以阅读文章《期待AI+NLP+KG尽快进入实用阶段,因为需求很强烈》和《不懂NLP的人想知道,NLP的难度在哪里?》。


为“综合智慧能源100问”建言献策


数字化转型:企业在什么时候才需要转型?


制造业的管理和质量


2020年收官之作:咨询公司的诚信


工业互联网:GE Predix失败了,我们怎么才能做的更好?


新冠一周年祭,看看什么应该被总结、应该被重视?


统计的力量


制造业的ATO、定制化、自动化和智能化


电力事故应急应纳入资产全寿命管理体系


从工业互联网看工业背后的效率和成本因素


翡翠赌石,降低风险的最简单方法是什么?把成本管理说的更俗一些

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存