查看原文
其他

人工智能科学家王绪刚:为什么你的数据分析缺乏“洞察”?

王绪刚 科特勒营销战略 2022-10-05


营销最大的变化之一是技术化。技术使营销能够更强有力地理解、预测和交付顾客价值。而顾客价值是营销唯一不变的基石。今天,我们有幸邀请到人工智能科学家、欧拉认知智能创始人兼CEO王绪刚博士,给大家带来“如何从信息到数据、到知识、到洞察”的系统性分享,希望对企业的数字化营销、数据分析和数据淘金工作有所启发。

——科特勒咨询集团全球合伙人、
中国区总裁  曹虎



01  数据带来了四大价值

02  业务人员的无奈与技术人员的无辜

03  到底什么是洞察?

04  从信号到知识

05  图价值的四大评价维度

06  图结构的五种类型

07  数据分析的两大形式




01

数据带来了四大价值




久居北京的人都知道,北京北四环附近都是码农,东四环附近都是网红。这两个地区分别聚集了IT人和营销人。

我职业生涯最早时期是在北四环从事大数据相关技术的研发工作。最近7年,我在东四环一个营销公司从事社会化营销的相关工作。现在我又回到了北四环,继续做大数据相关工作。

在营销公司工作的这段时间内,我发现:要让业务人员使用数据,或者要让技术人员能支持业务人员使用数据、去了解数据的价值,其距离不亚于从北四环到东四环的距离——每个人的思考模式差距非常大。

就像我的同事以前经常跟我开玩笑时说的话一样:“做了很多的这种数据分析,但是没有洞察”。那么我们今天就来聊一聊,为什么数据分析当中没有洞察?我们做到了什么?还缺少什么?

说到数据分析,可能不同的人想到的是不同的场景。


很多人会想到数据可视化、数据报表、大量的数据报告,比如我们看到很多数据展示出来的曲线图、饼图、柱状图等等;还有一些人可能想到的是数据大屏,尤其是在一些政府部门或者大型集团内部,经常有这种数据大屏;还有很多专业数据分析师会想到数据分析工具;最近AI(人工智能)比较火,很多人又会想到用机器学习加工数据。

那么,数据到底能带来什么?

我们把数据带来的价值分成4大类。倒三角越往上,三角越宽,代表带来的价值越大,越往下,可能它的价值越小。

第一个,数据的价值是能发现事实。比如这次疫情期间,每个人都在跟数据打交道。我们每天起床都要看一看疫情数据的增长,新增情况、疑似情况等等。这是数据给我们带来的事实。我们只有看到这个数据,才知道目前发生了什么事情。

第二个,从数据当中去发现问题。比如很多品牌主都会购买舆情处理软件或者舆情监测软件,去发现品牌口碑的升降,如果出现了一些负面的问题,可以及时去影响去纠正我们的品牌形象。
 
第三个,在数据当中找到特征。比如最常见的就是用户画像,做营销的人都会经常用到。不管是做广告投放,做目标消费者挖掘,还是做一次谈判之前的前测等等这样的工作,我们都要去做用户画像。在海量的数据源群当中,找到精准的目标用户。这个工作就是在找特征——我们要找到符合品牌调性或者是转化率最高的那群人,找到这群人的特征,然后再去找到相似的人,去放大。 

第四个,预测可能或者是预测未来。比如预测某一个产品的销量、某一个电影的上座率等等,这都是在预测可能。

倒三角越往上,价值性越高。但是事实上,我们发现它是一个倒三角——现在真正能做到或者能做好的,往往是看到事实,发现一些问题,但真正能做到找到特征和预测可能,目前还是比较少。 

为什么?就是因为我们的数据当中没有洞察。



02

业务人员的无奈
与技术人员的感觉无辜


Insight(洞察)这个词,也是我们在营销当中经常用到的一个词。我刚开始进入营销行业的时候,经常会面临这样的挑战:你的数据报告里面缺乏Insight。

想象一个场景:一拨人是业务营销人员,比如说营销团队的策划、品牌、投放、文案、品牌主等;另外一拨人是IT人员,比如数据分析师、机器学习工程师、中台人员等。两拨人员要在一起工作,可能才能获得一个数据分析的结果。

但是,这两拨人在一块工作的时候,我们往往发现出现的是“两无现象”:业务方是无奈的,技术方感觉是无辜的。


业务方的无奈经常会体现在:你给了我很多的数据,我知道这就是事实,可它能说明什么呢? 或者我们发现了一个问题,老板需要能赶紧看到是什么导致了这个问题?导致了这个现象?你能告诉我原因吗?你给我的分析结果,到底它有什么特征?有什么特点?比如最近流行款当中,某一个领子和袖口,它的搭配有什么特点?两个产品你让我组合售卖,为什么推荐这个产品?这跟我的常识不符,你能告诉我原因吗?你能解释这个吗?

而对于IT人员来说,往往会感觉到很无辜:我之前的很多分析需求是跟你沟通过的,如果你要做一些新的指标,你要事先告诉我才行,我要去做数据的清洗,要做数据的建模,不可能马上就把结果出来。很多的这种分析结果是通过机器学习去完成的,它是一个黑盒子,无法告诉你原因。另外当你出现一些新的训练或者需要继续学习,再重新进行训练的时候,我们还需要再做新的数据标注,才能再去训练模型,才能产生更好的结果。

在这种情况下,双方都感觉到无可奈何:我怎么才能解决没有Insight的问题?



03

到底什么是洞察?


举个例子:我们经常会在数据分析当中使用大量的词云图。它展示了数据内部涵盖的关键的一些主题。但你往往还是不知道“为什么”。

比如我们在词云当中可以看到有“逻辑思维”,那么逻辑思维到底是一个名词,还是一个特有的品牌?我们不知道。“建模”到底是一个名词,还是一个动词呢?我们也不知道。我们只是看到了一大堆关键词都放在这里了,只能去猜测或者再去进一步计算,看看背后的原因是什么。

再举个例子,群体用户画像中讲到了某一个App的使用情况,最多的是广东,其次是河南、山东……它给了我们一个结论:这三个省份是最高的。但这个结论说明了什么呢?因为我们人口统计学中,中国人口的排名就是这样,那么它跟网民的自然分布是一致的。所以我们得到的结论没有特征。

这些数据花费了大量的力气,可能我们做出来了,却发现没有对业务形成太多的指导,我们只能看一看。
 
当我们需要洞察的时候,到底是想表达什么?简单总结一下,从业务的角度来说:

首先需要讲因果。很多人说大数据是没有因果的,我不太同意这个观点。数据必须是有因果的,才能指导行动。

其次是可以解释。比如说我得到了一个结论,它是如何产生的?为什么会是这样的一个结论?它必须是可以解释的。

再次是回答问题。也就是回答业务人员提出来的问题。往往他的问题是随需想到的,根据目前看到的一个现象想到的,而不是他脑中已经有答案,需要用数据去佐证的。

最后是指导行动。我们要跟业务的逻辑挂钩。



04

从信号到知识


知识是从数据当中获得Insight的重要基础。我们人类理解知识是什么,但是机器怎么获得知识?

这是机器从最初的信号到知识的一个过程。


举一个场景为例:在一个便利店里面,我们可以去识别某一个人今天看了某一个产品,这是最初获得的一个信号;其次我们会获得一些数据;根据数据,再结构化地获得一些信息,比如我们可以知道某一个用户在某一个产品前浏览了三次,以及什么时间浏览的?根据信息,我们就可以加工出来一个业务的支持,也就是用户购买这个产品的概率是70%。

这就是一个从信号到知识的过程。这个过程既能让人理解,也能让机器去理解。


让机器去理解一个知识,不是很容易的事情。那么我们怎么才能让机器和人同时能够理解?就需要在机器里有一个知识的表达。接下来我们会讲相对来说偏数学的一些东西。我先做一个简单的高能预警。

人的语言实际上是最好的传达知识的方法。比如主谓宾是一个最简单的定义知识的一个三元组,那么在计算机里面就可以把它表示成一个三元组,或者是一个简单的图的结构。


在这个图里面,我们可以把用G=(V,E)三联组去表达一个最简洁的知识,也就是主谓宾。V (Vertex) 表示顶点的集合,表示一个对象;E (Edge) 表示边的集合,表示两个对象之间的关系,那么它就构成了主谓宾。如果我们在对象上再加上属性,就表示主、谓、宾和定状。


这种方法可以表达我们现实世界当中许许多多的这种知识结构。比如我们把这些数据进行结构化以后,可以获得一些信息。当我们知道了某一个关键词是一个产品的名字,而这个产品实际上属于某一个品牌,这样的一个逻辑关系以后,那么就可以获得一个知识与意义。

我们可以对一些混联数据、结构化数据以及非结构化数据,进行这种网络性的表达。比如说我们对一个产品本身的这种结构化的表达,它的商品信息、上市时间、品类等等。


对商品信息本身有一些“伴有化”的表达,比如说它的面料、领型、袖型,这些并不是所有的产品都有这样的一些标签和特征,那么它是一个对多的关系。

同时我们对于某一个产品的图案可能还会有相关的评论。这种非结构化的数据,从评论当中我们也可以抽取出来评论表达的情感、评论表达的主题,然后这个主题又属于哪些类别等等,又构成了一个这样的图结构。

那么有了这样一个图的结构,我们就可以去看评论当中到底蕴含了什么样的内容。

比如我们之前经常发现在用户评价信息中有“师傅”这个字眼。到底这个“师傅”是售后安装过程中的师傅,还是送货物流中的师傅?那么通过结构化的表达,我们就可以知道“师傅”这个词提到的到底是什么样的事情、什么样的类别。当这个字眼出现的频率特别高,同时伴随着一些负面情感的时候,我们就可以快速知道:到底是物流服务不好,还是售后安装服务不好。

经过业务的这种结构化整理,我们就可以快速获得洞察了,而不是简简单单获得一大堆关键词放在那里不知所云。



05

图价值的四大评价维度


对于知识的表达,实际上是采用这种图结构去完成的,于是对大数据价值的体现有了不同的衡量。熟悉大数据的人可能多多少少知道,大数据价值评估有四个角度:变化、速度、多样性以及数量。 

过去我们认为数据量大的就是高价值的数据,但是不是真的这样呢?比如有一个商场卖了1000种商品。每一个产品的销量都非常高,但是它卖给了1000个不同的人。数据之间没有任何关联,人和人之间也没有任何关联。

流水非常大,每天都有很大量的消费量级。那么我们觉得数据价值性还是欠了一点点。为什么?因为它没有关联。你不知道一个人是不是买了同样的两个产品,或者根本没有买同样两个产品。 

对于一个图来说,我们除了强调图里面对象的节点数量以外,我们更强调它的边(也就是对象之间的关系)。

因此,我们评价数据价值从四个角度去看:


第一个是群体性。我们是否能从这张图当中发现群体性,实际上代表的是它的特征;

第二个是连通性。是不是有大量的孤立节点存在?还是说任何一个节点都可以到达其他节点?或者任何一个节点都可以有多个路径去抵达?连通性代表的是数据本身的一个重要属性,也就是它的关联特征。

第三个是重要度。对于某个节点,我们去看它的边的数量,是不是有很多的边和某个节点相连?或者平均某个节点上面边的数量。重要性代表的是我的图的可预测能力,比如是不是会有一些重要的节点?当它发生变化的时候,会快速影响到整个图上面的这种价值分布。

第四点是图的密度。图上面所有可能产生边的数量和已经产生边的数量,代表的是整个图带来的信息量。

当一个图的群体性、连通性、重要性和密度都比较高的时候,我们可以说这个图的价值非常大。 

我们企业内部的数据也好,获得的数据也好,如果能构建成一个很好的图,我们就有可能获得很高价值的结论或者洞察;如果我们得到的这个图,它的群体性、连通性、重要性以及密度都比较低的话,对不起,我们可能得到的数据价值也会比较弱,可能很难得到重要的洞察。通过一些数据指标的衡量,去看数据本身的基础价值。

再举一个更直接的例子,比如社交网络的发展。最早的BBS是一个最简单的二分图。我们发表一个主题,下面会有人评论。它的连通性就很差。再往后进入到微博时代,微博的连通性、群体性以及重要性就比之前高很多。对于微信来说,又有很多的公众号,它的群体性、连通性、重要性和密度都很大。



06

图结构的五种类型


刚开始我们从一个部门开始,慢慢会把前端的部门生产、营销、销售和后端的生产、制造、售后、物流、供应链关联在一起,构成一个巨大的图谱。在学术界和工业界,都把它叫做知识图谱


我们可以不去理解知识图谱到底是一个怎样的严格的数学定义,或者说是严格的行业标准。但是我们知道它对于获取数据洞察是非常有价值的。

再打一个比方,它相当于我们构建一个行业的知识地图。开过车的人都知道,可以进行技术导航。要去哪里的时候,我都可以随机输出输入两个地名,它就会给我一条路线。而它的前提就是对某个城市的实体也就是地理位置,以及它们之间的道路,以及道路的属性做好重要的标识,这样就构建了一个很好的地图,剩下的只需要司机上车开车就可以了。这种图的表达在我们生活的方方面面都可以看得到。

我们可以把图的结构归结为五类:


第一类叫做概念图。它是一种静态的图结构,以实体去解释实体。比如老虎属于哺乳动物,又是一种动物,鱼也是一种动物,鱼会在水里游等等,这都属于用实体去解释实体。它构建了某一个领域的一种概念。

第二类是原生的数字网络。这种数据结构天生就是一种数据网络型或者图形,比如社交网络、通讯网络。


第三类是原生的物理拓扑图。这是我们肉眼可见的物理的图结构,比如通信网络、分子结构等。
 
第四类是事件或事理的图。它是以某个事件和行为为中心或作为重要节点的一种图谱。比如我们浏览或购买了某个产品,某天某个公司发生了某件事情等等。

最后一类就是对于前几类网络加工后的一种数学型网络,我们把它叫做概率网络。我们会发现两个节点之间有一种概率的依存关系,它是以因果关系构建的一种网络,比如说贝叶斯网络、马尔科夫模型等等,都属于这种常见的图结构。

有了这种知识基础以后,我们就需要对业务进行分析。首先你要有知识;接下来很重要的就是如何去发现数据的价值。一定要把发现数据价值的任务交给业务人员,让业务人员自己去发现数据价值。



07

数据分析的两大形式


数据分析分为几种形式:

第一种是验证性的。我们在工作场景中大部分都是验证性数据价值的体现,也就是说:我脑子已经有一个结论了,需要用数据去佐证。往往是我们去给老板做汇报的时候,通过数据佐证老板的一些想法,去印证现在一些战略执行的对与错。

第二种是探索性的。我事先可能不知道结论,这种类型的分析又可以分成两种执行方法:


第一种就像哥伦布发现新大陆似的误打误撞,随机漂流,最后碰到了一个信道。

第二种是福尔摩斯型的。我知道了一个线索,然后慢慢找到一个答案,又发现新的线索,又找到新的答案,通过排除和筛选,最后得到了一个可能的下一步的结论。这是一种循环迭代的过程,实际上是有章可循的。

如果我们没有把这种能力交给业务人员,往往技术人员就像哥伦布发现新大陆那样误打误撞。我们先把所有数据跑一遍,或者我先给你做一个数据报告、数据大屏,你看一看是不是还能提出一些新的问题来,然后我再慢慢帮你去做下一波的迭代。很多时候就像航海家的命运一样,往往是没有下文或者是不知道漂流到哪里去了。只有极少人才会幸运得像哥伦布一样发现新大陆,而大部分的航海家都是丧命了。


怎么才能让业务人员自己去发现问题、找到答案,这就需要从问题出发,让业务人员去随需提问,获得答案。什么叫做随需提问?现在的很多工具,或者我们使用的这种数据分析产品,大部分都是专业人员使用的。要让业务人员用,他们可以提出业务的问题。 

最简单的方式,你可以采用搜索引擎的形式。让业务人员像使用搜索引擎那么简单地在里面输入一些问题,甚至只是输入一个关键词或输入一段话,我们就可以获得他提出问题的一个相关答案。他再去发现新的线索,再去不断地寻找答案,寻找下一步的结论。 

说到这里,可能大家会以为我们做的东西是不是需要做大量的语音理解?没错,而且不只是语音理解这么简单,而且要把它变成一种结构化的识别。


比如我说想吃土豆和牛肉的菜,以前的大数据会推测出来我是要吃土豆加牛肉,但是做到随需提问后的答案,不仅仅能识别出土豆和牛肉的菜,更重要的是要识别出来最受欢迎的土豆和牛肉的菜谱推送给你。这就需要不仅仅做NLP(自然语言处理)的工作或者NLU(自然语言理解)的工作,最主要的是对数据本身的语音化。

这就回到刚才讲的,第一步,我已经通过一个图的结构去表达了业务语义,第二步就可以非常方便地根据用户提出来的目标,在地图上游走,从而获得一个路径,也就是获得我们所要的答案。


在学术里把它叫做认知智能,而认知智能是人工智能的一种应用方向。针对的另一方面是我们讲到的感知智能。

感知智能相当于用机器去模拟生物的一些感知能力。比如听觉、视觉和触觉,去做相应的简单的识别,可以看作信号处理的过程。它只是从信号获得了数据,获得了基础的信息,还没有到后端知识的过程。

而在知识之上就是我们的认知能力,也就是我们对于复杂的知识处理、实施的决策和人机协同的这种决策过程。这种可以看做两种人工智能的应用。 

除了实时获得答案以外,更重要的是我们要在答案中能发现相关的特征。


基于数据做决策的过程不是一蹴而就的。它实际上是个迭代的过程。不是非要借助于技术人员,而是需要业务人员自己去和系统进行实时交互。请注意这一点,实时非常重要。不能说我们提出了一个问题,需要等待几十秒的时间甚至半天的时间才能获得一个答案。
 
在这个过程当中,我们可以从监测统计当中发现问题,然后再通过这个问题找到可能造成的原因,再根据造成的原因去看是什么样的特征导致了这个问题,这样的特征会影响未来什么样的事情?这是一个决策链条。整个过程都需要人和系统实时去完成。 

实时性的要求非常高,需要在毫秒之内,也就是小于秒级,去完成这样的工作。


整个分析过程是一个协同的过程。我们可以把不同分析人员分析的过程全部记录下来,然后共享出来。有经验的业务人员就可以把经验分享给其他人。

而且整个分析过程中,数据必须是透明的。我们知道了一个分析结果,不管是统计后的结果,还是可视化的结果,我们必须时时能看到背后造成这个结果的初始原数据的组成是怎样的。

这个过程中有些违背常理的事情发生,或有很多垃圾数据存在,都需要业务人员不断校验。根据我们获得的知识结论、洞察结论,去反复校验数据,形成实时交互。所以数据的透明化对于分析的过程也是非常重要的。


最后我们再来总结一下,回答最初的问题:当希望得到洞察的时候,我们可以怎么做?需要三个步骤:

第一步,以业务与运营来表达数据实体和实体之间的内在关系,这就是我们要获得一个知识地图。第二步,让业务人员可用,从问题出发随时发问,获得数据的洞察和发现数据的价值。第三步,要进行实时的计算,让业务人员能跟系统进行实时互动、实时对话,去发现特征、探索和推理,同时做到数据透明。 


直播预告:
5月份,科特勒增长实验室直播间
将迎来一位重磅神秘嘉宾
敬请期待!

合作咨询电话:4008800231
如电话占线,可根据您的需求联系具体工作人员
——
企业咨询合作,请联系:thygenius(微信号)
企业内训/培训业务,请联系:CathyChen696(微信号)
采访邀约/内容合作,请联系:euleress(微信号)
加入科特勒社群,请联系:kotler_marketing(微信号)


点/击/图/片/阅/读/文/章

更多内容请点击文字链接


 2020趋势报告  2020开年大课  2019营销学研究盘点  2019营销传播案例盘点 2019CMO调研报告  2019科特勒CGO崛起白皮书  2019科特勒培训手册 菲利普·科特勒2019中国行演讲实录  菲利普·科特勒书单  菲利普·科特勒故事 上亿美元的秘密  刷新营销思维  发挥核心业务能力  营销与绩效挂钩 瑞幸  OYO  WeWork  美团  小米  Uber  拼多多  增长五线 品牌化增长模式  米尔顿·科特勒  CGO核心能力  《营销管理》  VCR模式  5A模型  食品营销  升级顾客思维  数字营销三大困局




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存