多元正态分布的检验
多元正态分布也称多元高斯分布。如同正态分布在单变量分析中的地位类似,在对多个因变量(多元)同时进行分析时,常常假设因变量组合成的向量服从一个多元正态分布。比如重复测量数据将重复的测量结果(比如各个时间点上的测量结果)视为不同的因变量,可以采用多元方差分析,此时就要求各个因变量的组合向量服从多元正态分布。对多元正态分布的判断通常采用的边际分布来判断,即每个因变量的分布呈正态或近似正态。但实际上单因变量正态是多因变量多元正态的必要非充分条件:所有因变量的组合服从多元正态分布,每个因变量的分布(边际分布)必然呈正态;每个因变量的分布呈正态分布,所有因变量的组合未必呈正态分布。只要有一个因变量不服用正态分布则组合分布肯定不服从多元正态分布。
示例1:10名肥胖患者在医生指导下服用药物减肥,按统一标准记录服药前和服药后1-4周的体重。
这是一个典型的无对照的重复测量数据,如将各个时点的体重视为不同的因变量,因变量(结果变量)就不止一个,此时可考虑多元方差分析(MANOVA)对它们同时进行分析。多元方差分析要求多元正态性、组间方差-协方差矩阵同质性、各因变量间有一定的相关性(个体内不独立,但个体间独立)。本文采用STATA对多元正态性的进行检验。
【1】数据录入:数据>>数据编辑器>>数据编辑器(编辑),或直接点击[数据编辑器(编辑)]的快捷按钮进入数据编辑窗口进行数据录入。当然数据如果原本存在在其他格式的文档中则可以直接通过文件>>导入,选择相应的数据格式进行导入。
[模型]选项卡检验:正态性;变量:W0 W1 W2 W3 W4;
[选项]选项卡中选中单变量、双变量的正态性检验及所有多元正态分布的检验方法。如此处选项不选中,结果仅输出默认的Doornik-Hansen omnilus test检验结果。
示例2:两组新生儿出生时的体重与身长数据如下:
预对两组的体重和身高同时进行检验,可以考虑多元方差分析,首先考察多元正态性。
【1】数据录入:数据>>数据编辑器>>数据编辑器(编辑)。
[模型]选项卡: 检验:正态性;变量:weight、height;
[by/if/in]选项卡:选中按组重复运行命令,组变量:Group。此处操作可以分别按组水平输出多元正态分布的结果。限制观测中的if或者使用指定范围内的观测可以按要求输出相应的结果;
[选项]选项卡同示例1,选中单变量、双变量的正态性检验及各种多元正态分布的检验方法。本例只有两个因变量,二元正态分布检验采用的也是Doornik-Hansen omnilus test,其检验结果同多元正态分布检验结果一致。
该菜单除了实现多元正态分布的检验,还可以进行组间方差-协方差矩阵齐同性的Box M检验、多元方差分析等。
附:STATA多元正态分布检验的语句命令
mvtest normality varlist [if] [in] [weight] [, options]