输出分组描述性统计表的利器——report
本文作者:闫续文
文字编辑:李钊颖
技术总编:李朋冲
重磅!!!为了大家能够更好的使用Stata软件,2019年11月8-11日,北京天演融智软件有限公司和武汉字符串数据科技有限公司(爬虫俱乐部)将在大连举办《Stata数据分析技术应用培训》。课程采用Stata公司在今年6月26日推出的最新版Stata16软件进行教学,课程通过案例教学模式,旨在帮助大家在短期内掌握Stata的基本命令、编程、数据处理以及熟悉Stata核心的网络数据抓取技术,同时针对最新版Stata中的实用新功能也会做出详细介绍。目前正在火热招生中~
详细培训大纲及报名方式,请点击文末阅读原文呦~
Borochin, P., & Yang, J. (2017). The effects of institutional investorobjectives on firm valuation and governance. Journal of Financial Economics,126(1), 171–199.
Lo, K., Ramos, F., & Rogo, R. (2017). Earnings management and annualreport readability. Journal of Accounting and Economics, 63(1), 1–25.
Cronqvist, H., & Yu, F. (2017). Shaped by their daughters: Executives,female socialization, and corporate social responsibility. Journal ofFinancial Economics, 126(3), 543–562.
Loughran, T., & McDonald, B. (2014). Measuring Readability in FinancialDisclosures. The Journal of Finance, 69(4), 1643–1671.
CHEN, J., HONG, H., JIANG, W., & KUBIK, J. D. (2013). OutsourcingMutual Fund Management: Firm Boundaries, Incentives, and Performance. TheJournal of Finance, 68(2), 523–558.
1. report命令的功能与结构
ssc install report, replace
report [, options]
2. report命令操作实例
webuse citytemp2, clear
(1)输出单个变量的取值表
efolder report, cd(d:/) //在d盘创建report文件夹,并切换至该路径下
report, rows(region) nofreq file(temp) replace
(2)输出单个变量不同取值的频数和频率表
report, rows(region) title(Frequency and row percentages) file(temp) row
其中,选项title(string)用于指定表头;选项row表示生成行变量不同取值的频率,默认情况下,该命令会生成变量不同取值的频数,而不包含频率。生成的内容如下:
(3)输出多个变量不同取值的频数和频率表
report, rows(region agecat) title(2-way Freq table) file(temp) row
report, rows(region) cols(agecat) column totals file(temp)
report, rows(tempjan, mean %5.2f | tempjan, sd %5.2f| tempjan, count | tempjuly, mean %5.2f| tempjuly, median %5.2f) cols(region agecat) font(,8) file(temp)
其中,表格的行变量是tempjan分组的均值、标准差、观测值个数以及变量tempjuly分组的均值和中位数,选项font(string)用于指定表格的字体、字号、颜色。生成的内容如下:
可以看到,在上面的表格中,变量agecat的分组嵌套在变量region的分组里面,我们还可以使用如下程序将两个变量的嵌套分组改为并列分组:
report, rows(tempjan, mean %5.2f | tempjan, sd %5.2f| tempjan, count | tempjuly, mean %5.2f| tempjuly, median %5.2f) cols(region agecat) font(,8) file(temp) adjacentcolumns
report, rows(tempjan, mean %5.2f | tempjan, sd %5.2f| tempjan, count | tempjuly, mean %5.2f| tempjuly, median %5.2f) cols(agecat) rowsby(region) font(,8) file(temp)
report, rows(heatdd, mean %5.2f | heatdd, count | heatdd, sd %5.3f | tempjan, mean %5.2f | tempjan, sd %5.2f| tempjan, count | tempjuly, mean %5.2f| tempjuly, median %5.2f) cols(region agecat) font("Times New Roman",8) landscape file(temp2)
至此,我们介绍完了几种比较常用的分组描述性统计表的输出方法。report命令使用方便且功能强大,但目前只能在Stata16的版本中运行。快和我们一起动手练习吧!
关于我们
微信公众号“Stata and Python数据分析”分享实用的stata、python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。