查看原文
其他

命令更新之t2docx——报告分组均值t检验

爬虫俱乐部 Stata and Python数据分析 2022-03-15

本文作者:孙雪丽

文字编辑:王碧琪

技术总编:薛   原

重磅!!!爬虫俱乐部将于2019年10月2日至10月5日在湖北武汉举行Python编程技术培训,本次培训采用理论与案例相结合的方式,旨在帮助零基础学员轻松入门Python,由浅入深学习和掌握Python编程技术,尤其是爬虫技术和文本分析技术。该培训目前在火热招生中,点击《爬虫俱乐部2019十一Python编程技术培训报名啦!》或点击文末阅读原文,了解培训详细信息,抓紧时间报名吧!

       论文写作中,为了比较两组样本在基本特征上的差异性,我们通常会用到分组均值t检验;双重差分模型中,通过PSM(倾向得分匹配)为实验组匹配对照组后,也会运用分组均值t检验,比较匹配后的两组样本,基本特征是否仍存在差异……可见分组均值t检验在实证研究中具有广泛的应用。

爬虫俱乐部开发的t2docx命令只需一行程序,便可把分组均值t检验的结果输出到Word文档,使实证研究和论文写作都更加便利。近期我们也对这一命令进行了更新,增加了一些非常实用的功能,运行速度大幅提升。

 

下面为大家介绍更新后的t2docx命令(命令更新:ssc install t2docx, replace)。
t2docx命令的语法如下:
t2docx varlist [if] [in] using filename, [options] by(groupvar)

其中:

varlist为一个或多个数值型变量;

filename为输出的docx文件名;

by(groupvar)为一个必选选项,表示依据分组变量groupvar将样本分为两组,比较这两组样本varlist的均值差异。

 

以Stata自带的auto数据为例,先来了解t2docx命令最基础的用法:
clearcap mkdir e:/t2docx/cd e:/t2docx/sysuse auto, cleart2docx price mpg weight length using 分组均值t检验.docx, replace by(foreign)

程序中我们依据变量foreign将样本分为国产车组和进口车组,并比较这两组车在price、mpg、weight和length几个方面是否有差异。上图的结果显示,国产车和进口车price的均值差为312.259,但并无显著差异,但国产车和进口车的mpg、weight和length具有显著差异。

 

上图为t2docx命令输出的最基础的表格,我们可以通过一些选项改变表格的输出样式。比如,表格的默认标题为“T-test Table”,我们可以通过title()选项设置表格的标题;均值及t统计量默认保留小数点后3位,我们可以通过fmt()选项改变数字格式;可以通过not选项设置不输出t值;还可以通过star()选项设置显著性水平及标识……这些选项继承自老版的t2docx命令,读者可参考往期推文《t2docx分组均值t检验》了解详细用法。

 

下面一起来了解t2docx的新增选项。

1note()选项、pagesize()选项、font()选项、landscape选项

       这四个选项是我们此次更新结果输出系列命令时统一添加的,分别用于添加注释、设置文件页面大小、设置输出表格的字体字号以及将文档页面横向布局。用法与sum2docx中的对应选项一致,可参考推文《命令更新之sum2docx:将描述性统计输出至word文档》。

t2docx price - length using 分组均值t检验1.docx, replace by(foreign) /// title("分组均值t检验1") note("*** p<0.01, ** p<0.05, * p<0.1") ///    pagesize(A4) font("Times Newroman",11,black) landscape fmt(%9.2f)
程序中,通过pagesize(A4)我们设置了输出文件的页面大小为A4,font("Times Newroman",11,black)选项设置了输出文件的字体为Times Newroman、字号为11号、字体颜色为black,landscape选项将输出文件设置为横向布局,note()选项为输出表格添加注释。输出的表格如下:

      

2p选项、se选项

t2docx命令新增的p选项和se选项可指定输出t检验的p值或se(标准误)代替t统计量,但p选项和se选项不可同时指定,即不可同时输出p值和标准误se。
t2docx price - length using 分组均值t检验.docx, append by(foreign) /// title("分组均值t检验2") note("*** p<0.01, ** p<0.05, * p<0.1") /// fmt(%9.2f) p

       可见,指定了p选项后最后一列的t值变为了p值。

 

3welch选项

       在t检验中,一个前提条件是在均数比较时,要求两样本总体方差相等,即具有方差齐性。如果方差不齐,t检验的结果可信度大打折扣,在这种情况下,可以采用校正自由度的方法计算t分布的概率,Satterthwaite(1946)和Welch(1947)分别提出了两种使用校正自由度计算t值对应概率P的方法,由于Satterthwaite(1946)所提出的自由度计算方法为现在大多数统计学软件所采用,故在t2docx命令中默认按照Satterthwaite(1946)公式计算t统计量。为了丰富用户对于自由度校正方法的选择,此次更新我们新增了welch选项,使大家可以指定按照Welch(1947)公式计算对应的t值及p值,两个公式校正自由度的方法不同,进而计算得到的t值略有差异。

t2docx price - length using 分组均值t检验.docx, append by(foreign) /// title("分组均值t检验3") note("*** p<0.01, ** p<0.05, * p<0.1") /// fmt(%9.2f) welch

可见指定了welch选项后上图中的t值略不同于“分组均值t检验1”中默认按照Satterthwaite公式计算的t值。

以上便是更新后的t2docx命令新增选项的主要用法,这些新选项的添加使得t2docx命令输出的表格更加多样,功能更加丰富,同时运行速度更快。

值得说明的是,自从结果输出的几个命令更新后,我们收到很多Stata15.0及以前版本的用户咨询报错信息option border() not found发生的原因,这是因为在更新后为了提高命令执行速度,用到了Stata15.1的putdocx命令中添加的选项。遇到这样的报错信息,大家只需要将Stata更新到15.1版本或者使用Stata16,就可以完美解决。


对爬虫俱乐部的推文累计打赏超过1000元我们即可给您开具发票,发票类别为“咨询费”。用心做事,只为做您更贴心的小爬虫!

往期推文推荐

爬虫俱乐部2019十一Python编程技术培训报名啦!
数据类型——Dict、Set与Frozenset简析

数据类型介绍——tuple、list和range对象

把pdf文件批量转成docx文件

格式化字符串方法的比较

字符串的小帮手之ascii()、str()和repr()函数

朝花夕拾—— 如何输出内存中的矩阵与绘图

朝花夕拾——putdocx批量输出变量观测值

带你走进编码的世界——Unicode编码

Stata16新功能——定义图形元素的绝对大小

添加docx内容哪家强,Stata16新命令帮你忙

将数值型计算“一网打尽”——(1)

将数值型计算“一网打尽”——(2)

Stata16新功能之“框架”——读入多个数据集(1)

Stata16新功能——同一个文档,不一样的布局
手持Python,斗图不输!

万般进制千机变,Python一计乾坤定——利用Python来进行进制转换

朝花夕拾——cnstock与cntrade强强联合

关于我们

微信公众号“爬虫俱乐部”分享实用的stata命令,欢迎转载、打赏。爬虫俱乐部是由李春涛教授领导下的研究生及本科生组成的大数据分析和数据挖掘团队。


此外,欢迎大家踊跃投稿,介绍一些关于stata的数据处理和分析技巧。

投稿邮箱:statatraining@163.com

投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到关于stata分析数据的问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存