查看原文
其他

科普 | 结构方程模型(Structural Equation Modeling)都有哪些应用?

2017-04-26 数据应用学院 大数据应用




     【编者注】本文作者 Kevin Gray 是 Cannon Gray 公司的总裁, Cannon Gray 是一家专注于市场科学和分析的咨询公司。



结构方程模型是什么?



结构方程模型(Structural Equation Modeling,下文简称SEM)在数据分析领域里面应用极其广泛。它的一大特点是灵活。因为SEM可以衍生出很多变化,所以它是一类方法的总称。20世纪初的英国心理学家Charles Spearman和二战后的美国基因学家Sewall Wright最早开始使用这种方法。其他人,如瑞典统计学家Karl Jöreskog、美国心理学与统计学家Peter Bentler也为SEM的发展做出了贡献。协方差结构分析(Covariance Structure Analysis)和LISREL(一种应用协方差结构分析的前沿软件)有时也被用作SEM的同义词。顺便一提,LISREL由Jöreskog和他人一同开发完成。



那么SEM在营销调研(Marketing Research)中扮演了什么样的角色呢?每个消费者都拥有不同的态度、想法和性格,这些因素驱使着消费者做出不同的消费行为,但态度、想法和性格一律属于潜在变量(latent construct)。营销学者们既不能看到它们,也不能直接测量它们。这样一来,我们只能通过其他方法来推测它们,比如使用问卷调查。仅仅观测这些变量并给出估计值还不足以支撑研究成果,研究者最终还需要给出测量误差,这使得市场研究难上加难。SEM恰好在这两个方面都有很大帮助。


简单来说,SEM同时结合了因子分析(Factor Analysis)和回归分析(Regression)。同时,SEM还为研究提供了两种分析各自不能提供的灵活性。有读者可能会好奇,SEM是不是先对数据进行因子分析,然后把因子得分放入多元回归模型中呢?并不是。SEM是为了因果分析而特别打造的。SEM的另一个优点是,当多重共线性出现在数据中,研究者不能使用传统的回归模型进行分析时,SEM将会成为研究者的选择。


SEM中类似于因子分析的那一部分被称为测量模型。剩下的一部分被用来结合测量模型中得出的因子得分,并把因子得分与因变量联系起来,这一部分称为结构模型。有时候,因为经验研究或者理论模型提供了成熟的背景研究,自变量们就会自动地被结合起来,此时测量模型就派不上什么用处了。在一些研究中,我们不关心测量误差是多少,只关心模型里面的原始变量。这些原始变量在SEM中被称为“观察变量”。如果仅仅有结构模型而没有测量模型,那么SEM模型就变成了路径分析(Path Analysis)。


尽管SEM最常被用于研究调查数据,实际上SEM的用途很广泛。消费交易数据、社交媒体数据、经济数据、甚至是神经科学领域的功能性磁共振成像(fMRI)数据都可以使用SEM进行分析。任何数据类型,定比,定距、定序、定类、计数数据等,都适用于SEM。变量之间的曲线关系和交互关系也可以用SEM分析。


SEM还可以应对缺失数据,尽管缺失数据仍是个大问题。在等级模型、混合模型、纵向模型和数据分割中,SEM的应用也越来越广泛。SEM中可以包含多个因变量。SEM有时也和交互分析一起使用。在问卷调查中,每个人的个人习惯不尽相同,SEM甚至可以考虑到个人填写调查问卷的不同习惯。对于技术背景很强的读者来说,最大似然和贝叶斯方法可以用来估计SEM模型。


SEM应该什么时候使用



假设你要分析一个问题:你想知道哪些消费者知觉与对产品的喜爱程度、对购买产品的兴趣以及对产品的满意度最相关;你还想知道是否存在不同的消费者群体,这些不同群体拥有不同的消费者知觉,他们在寻求不同的产品特征。这听上去可不是个简单的建模问题。SEM恰好可以完成这些目标。通过画知觉图的方式,我们可以把形成不同品牌形象和品牌认知的因素找出来,从而区分不同品牌。


SEM也可以完成简单的工作。看下图,图中包含了对男性护理产品的分析。数据来源于消费者调查。在原图基础上我对这个图做了简化与修改,去掉了一些特征和外生变量。我想强调的是,这么大的一个路径图,包含了这么多信息,一定要对它进行仔细的检查。


● 在上图中,椭圆形里面是隐藏变量。它们只能被推测出来,因为现实生活中根本观察不到它们。

● 长方形里面是特征,也就是观测变量。椭圆中“传统的”(Traditional)这个变量来自三个特征,分别是“名誉度”(Prestigous),“大品牌”(Big Brand)和“可靠性”(Reliable)。

● 从隐藏变量伸出指向另一个隐藏变量的单向箭头代表我们假设它们之间存在因果关系。比如“传统的”会影响“品牌权益”(Brand Equity),“品牌权益”是模型里面的因变量。这就好比回归分析中的回归系数。从隐藏变量伸出指向另一个特征的单向箭头等同于因子分析中的因子载荷。

● 双向箭头连接了两个隐藏变量,它们都是外生变量(因变量)。数字表示两者的相关系数。

● 每个箭头旁边的数字是回归系数、因子载荷或者相关系数之一。如图所示,SEM模型中,回归系数通常小于载荷和相关系数。

● 为了让图看起来不那么拥挤,我去掉了误差和残差。它们好比于回归分析中的误差项和因子分析中的独特因子。


在完整的模型里面,对不同品牌的评价和它们的因子得分之间的关系可以用散点图表示。这里出于机密性考虑,我没有办法展示散点图。


结构方程混合模型(Structural Equation Mixture Modeling 以下简称SEMM)可以用来检查数据里面是否还有关于消费者分类地隐藏信息(我称这个过程为“动因分层”),不同类别的消费者很可能拥有不同的购物需求。分析的结论是我们需要两个动因模型。它们之间有相似之处,也有不同之处。它们的不同之处在于它们分别对应不同的价格区间。相似之处在于两个模型可以共同使用相同的隐藏变量。而有时我们的分析结论则是我们需要完全不同的两个模型。

 

如果在分析中不加思考地只用了一种模型分析所有数据,分析的效果将大打折扣。即便我们预处理了数据,将数据分入不同小组,然后我们对每组数据都使用一个独特的模型,也不能保证我们的分析一定正确。除非我们的分组背后有着极强的经验和理论证据。混合建模需要许多技巧,但建模成功的回报也很高。有时我们会发现一个全面的模型就已经够用了。


   需要多大的数据量进行建模呢?



多年来有两个法则一直被广泛使用,一是至少有200个样本(比如说200份有效问卷回复),二是问卷中每多测量一个变量,样本就增加十份(比如一个问卷测量了25个不同的变量,就需要有250份有效问卷)。这两个方法纯属于经验法则,现在已经遭到许多权威质疑。


     SEM如何应用于大数据



过去的10-15年内,SEM才刚刚开始走出心理学、教育学和社会学的应用范畴。我记得2006年有一次读到美国统计协会学报的一篇文章,这篇文章向读者介绍了SEM方法。如果我日期没记错,那说明SEM在诞生了并应用于社会和行为科学很久之后,营销科学才慢慢接触到它。SEM是一个通用的高阶分析方法,目前的营销场科学仍然没有充分利用它。


好像从最近开始,数据科学家们才开始将注意力集中到SEM。SEM的计算量很大,但今天我们的硬件设施已经今非昔比。即便是大数据库加上多变量分析,计算机也会表现很好。不断提高的硬件水平逐步提高了“大”数据的门槛。我们可以使用LogitBoost来对数据进行预测,再用SEM加深对数据来源的理解。用营销科学的行话说就是:要知道为什么。


   需要做哪些统计假设呢?



根据你准备使用的不同的SEM模型,需要因地制宜地考虑。一般来说,即便假设非常不靠谱,SEM模型也能够给出好的结果。这点跟许多统计方法一样。同时,估计出来的误差的质量没有估计出的系数的质量好。



SEM只能做检验假设吗?



 其实这不仅仅是对SEM的误解,更是对统计分析的误解。理论不是凭空变出来的,而是脚踏实地站在对数据的合理分析之上的。简而言之,我们看见了一件事情,自然而然地就想去弄懂为什么。如果使用探索性分析(例如交叉报表),那么我们犯错的风险极高。我们会意识到从这个小样本得到的结论无法在别的样本中得到重复,更无法一般化。我们需要极其小心并且确保我们懂得数据以外的商业逻辑。


我怎么知道我的模型是一个好模型呢?有许多不同的拟合优度可以派上用场。较拟合指数(The Comparative Fit Index)和近似均方误差的平方根(Root Mean Square Error of Approximation)可能是最常用的。我们通常用的决定系数有时也帮得上忙。但我必须强调,判断一个模型是不是好模型,应该基于常识、相关理论和是否能够在商业决策中有帮助。很大程度上,就是主观判断。


扩展阅读材料



Barbara M. Byrne写了一本极为好读的入门书,这本书涵盖了许多市面上常见的SEM统计应用包。此书名为Structural Equation Modeling with Mplus: Basic Concepts, ApplicationRex B. Kline的书同样好读,但内容更高级一些,书叫做Principles and Practice of Structural Equation Modeling。


Structural Equations with Latent Variables的作者是Bollen。这本书首次将SEM的数学基础介绍给大众。Stan Mulaik的作品Linear Causal Modeling with Structural Equations类似于Bollen的作品,但是内容比较新并且专注于因果分析。Handbook of Structural Equation Modeling对SEM的各个主题都讨论的极为详细和深刻,本书作者是Hoyle。


A Primer on Partial Least Squares Structural Equation Modeling(作者为Hair等),Causality: Models, Reasoning and Inference(作者是Pearl)分别介绍了偏最小二乘回归和贝叶斯网络。这两种方法通常被认为是SEM的替代品。


Structural Equation Modeling: A Multidisciplinary Journal (由Routledge创办)是目前最优秀的SEM学术期刊。SEMNET是SEM的网络论坛,人们可以通过电子邮件进行交流。如果读者觉得不过瘾,在我的公司图书馆中,我还列出了一些其他的阅读材料。


如果你有一个很强的心理测量学背景,那么你应该能够很好的运用SEM。对于刚入门的新人来说,Psychometrics: An Introduction(作者是Furr和Bacharach)和Introduction to Psychometric Theory(作者是Raykov和Marcoulides)是两本很好的参考书。第二本的内容难一点。

总结

当我想到SEM的时候,第一个蹦出来的评价是“力量越大,责任也就越大。”它太强大了,以至于我们用的时候一定要小心。因为SEM本身的数学理论并不简单,所以要使用SEM也并不容易。但是随着傻瓜式统计软件的普及,使用SEM的门槛低了很多。但如果不能理解其背后的原理,使用者就会很容易地迷失。


许多模型可能都适用某一个研究数据,但是不同的模型会提出不同的解释,进而影响研究者做出不同的决策。除此之外,我们要注意要尽量去拟合数据,不要怕过度拟合。这点在SEM中体现的很明显。我自己的经历告诉我,我有时候就被客户带偏了。我跑了许多许多模型,直到客户满意为止。这告诉我们,在统计分析中,人的干扰因素总是不能完全排除,而我们常常忽略这一点。


营销调研中很大的一部分属于纯定性和纯定量分析之间的灰色地带。SEM在这个领域中是一件利器。我个人希望读者们能够喜欢上这个灰色区域,因为超过三十年的从业经验告诉我,这个领域对商业决策者简直不能更重要。


希望你们觉得本文很有帮助,也很有趣!

文章来源/Kdnuggets

 长期招募 

TECHNICAL WRITER/翻译志愿者  

  1. 职责:

    1. 深度讨论数据应用

    2. 调研行业发展

  2. 要求:

    1. 对数据应用极为感兴趣

    2.  具备数据分析基础

    3. 具有一定BUSINESS INSIGHT

    4. 写作能力强

感兴趣的同学发送简历writing samplehr@dataapplab.com,邮件标题“申请翻译/Technical Writer”。



 

查看往期精彩文章:



点击阅读原文查看数据应用学院核心课程

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存