经验分享：如何有效地分析一份数据

医咖会 2021-01-15

The following article is from 小白学统计 Author 小白学统计

文章来源：“小白学统计”公众号。感谢作者授权。

如何有效地分析一份数据。这个题目很大，然而也正是很多非统计学专业（可能也包括一些统计学专业人员）不知如何下手的问题。当拿到一份数据，到底从哪儿入手开始分析。什么是第一步？有没有固定步骤？或者说，数据分析到底有没有什么宝典？我们就来谈谈这个问题。

首先，数据分析绝对没有一个固定的步骤，一定要先干什么，再干什么，等等。没有这回事。具体在软件操作上，我们可能并无差别，我会用SAS做t检验，你会用SPSS做t检验，本质上并无差异。真正差别的，不是软件操作，而是软件操作之前的思路。

我下面要说的内容，只是个人的十多年分析经验总结，但你千万不要把它看做是一个放之四海而皆准的分析套路。所谓思路，那就是没有什么固定套路，只是参考和借鉴。而且，我介绍的这些，肯定也不全，几乎不可能一篇文章面面俱到，把所有的分析思路都介绍清楚。只希望能对各位朋友在不同角度上有所帮助。

第一步要考虑的，我个人认为，一定是研究目的。

所有的统计分析都是围绕目的而执行，偏离了研究目的，分析的方法再高级，那也是南辕北辙。不同的目的，需要考虑不同的方法。

例如，你要做两组比较（例如，两种药物的血糖变化值有无差异），还是要做两个变量有无关联（比如血糖值和血压值的关联），或者想做综合评价（如根据多个指标评价哪家医院更好）。这都需要选择不一样的方法，组间比较可能最简单的方差分析就可以，综合评价可能需要用到主成分分析等更为复杂的方法。

第二步，要考虑指标的类型。

这里的指标包括分析指标因变量，也包括影响因素自变量。当然，并非所有分析都这么划分为因变量和自变量。有的可能只有分析指标，而无影响因素。

如果你有明确的结局，然后有一个或多个可能跟结局有关的指标，那就可以按因变量和自变量的方法来分析。大多数的这种情形都可以考虑广义线性模型。它包含了几乎绝大多数的有结局和影响因素的分析场景。例如，结局是连续资料，可以考虑线性回归等；结局是分类资料，可以考虑logistics回归等。

可能有人会说，那t检验、卡方检验这些在哪儿呢？其实这些都可以看做是单因素分析而已。t检验，只是一个自变量是二分类、因变量是连续变量的回归模型而已。比如比较男女之间身高有无差异，身高就是因变量（结局），性别就是自变量（因素），所谓比较男女之间有无差异，实际上就是说，性别对身高有无影响。其实一回事。卡方检验亦是如此。

所以，几乎所有的统计分析方法，都跟变量类型有关，都需要根据变量的类型来选择不同的方法。比如，如果结局指标是连续变量，那可以考虑的方法包括（但不限于）：t检验、方差分析、协方差分析、线性回归、秩和检验、中位数回归等等，根据自变量的类型、因变量是否服从正态分布等多个因素来考虑选择。

但是还有一些分析数据，是不区分所谓的因变量和自变量的，都是分析指标，比较常见的如主成分分析、聚类分析、相关分析、因子分析等等。这些分析方法不是为了研究某些因素对结局的影响，而只是针对分析指标根据不同目的进行一定的分析。

例如，主成分分析通常是为了把多个分析指标综合成较少的几个指标；聚类分析通常是为了根据几个指标把人群归为几类；因子分析通常是为了寻找支配表面指标的背后因素。这些方法一般称为多元方法，“元”一般是指因变量，这些都是多因变量的方法。

而前面说的线性回归、logistics回归等，通常都是单个因变量，多个自变量，因此算不上多元方法，更确切地说是多因素的分析方法。

第三步，具体问题具体分析。

可能你会说，这算什么步骤。然而，实际的情况是，真正到了数据分析过程中，往往就是具体问题具体分析。

根据前面提到的目的和数据类型，你基本上可以确定一定范围的几种方法。有时可能就确定了某一种方法了。然而再利用这种方法进行分析的时候，仍需要一些思路的指导。

根据我个人的分析领域和分析经验，在医学统计学中，大多数的分析方法（并非全部）可以归为两大类：一是有结局也有影响因素的；二是只有结局没有影响因素的。这里面又以有结局有影响因素的更为常见。

对于有结局有影响因素的这类数据，大多数的目的都是为了寻找结局主要受哪些因素影响。因此这里主要是基于这种目的再来说一下分析思路。

想要说明某一自变量是否对结局有影响，至少需要回答三个问题：

（1）是不是有影响？

（2）有什么样的影响？（线性影响，还是非线性的）

（3）影响有多大？

某一自变量是不是对结局有影响（例如，收缩压的高低是不是对血糖值有影响），这是个定性问题，要回答这个问题，基本上P值可以说明一些问题。P值可以告诉我们，这种影响是不是偶然造成的，还是一种真实存在的现象。

然而，仅回答“是不是有影响”，这是远远不够的。比如，你可以说，吸烟有害健康，这是定性问题。然而，吸烟对健康的危害到底有多大，这是个定量问题。这才是大家更关心的。因此还需要考虑这种影响到底有多大。

影响有多大，可以通过统计软件中的“参数估计值”来说明。比如，我们常说的回归系数、两组比较的均值差值，这都是参数估计值，他们可以说明这种影响有多大。例如，体重对收缩压的参数估计值是0.1，说明体重每增加一公斤，收缩压增加0.1；男女的身高差值是0.2，说明性别从女到男之间的差异是0.2。这可以定量说明影响有多大。

现在看来，似乎定性和定量都回答完了。事实上，很多人也就做到这一步就完了。然而，其实还有更重要的一个要回答的问题是：“有什么样的影响”。

回答影响因素的模型，大多数是回归模型，而回归模型中，大多数又都是基于这样一个假设：自变量和因变量（或者因变量的变形）是线性关系。不得不说，很多人根本无视这个假设，从而导致很多分析结果其实都是错误的。毕竟，现实中有多少关系是线性的呢？其实很多可能都是非线性的。这就是要回答的重要问题“有什么样的影响”，到底是线性的影响，还是非线性的影响。

遗憾的是，关于这个至关重要的问题，却只有少数人能回答。根据我个人的经历，大多数人（包括很多统计学家）是不考虑这个问题的。也许，不是不考虑，而是没有考虑到，或者，不知道该怎么考虑。

关于“有什么样的影响”，有些可以通过简单的散点图就可以发现，有的则更为复杂，一眼看不出来，可能需要像广义可加模型、样条回归、核平滑等多种技术协助探索。这可能需要专业的统计学家才能完成。然而，这也是体现专业和非专业的非常关键的一点：能不能真正帮你找到数据规律。

总的来说，要真正形成自己的分析体系，一定要先掌握各种方法，然后把这些方法之间的关系搞清楚，抽丝剥茧，提炼升华。这是一个由粗到细，再到粗的一个过程。只有细致深入，真正理解，才能把握重点，提炼出粗略的枝干。

只有了解足够多的方法，在考虑方法选择的时候才能做到“胸有成竹”，从多种方法中选择最合适的，否则你只会一种方法，就只能局限于这种方法，无法进行选择。虽然可能最后的结果都一样，都用了同一种方法，但是过程却不同。你可能是不会别的方法，只能用这种；而我是考虑了多种方法后，认为这种最为合适，主动选择了这种方法。

更多阅读

1. 说到控制混杂因素，怎么能不提多因素分析！

2.【合集】75篇SPSS统计操作教程，全在这里！

3.【合集】30节Stata视频课程，全在这里，值得收藏！

医咖会微信：medieco-ykh

关注医咖会，轻松学习统计学~

快加小咖个人微信（xys2018ykf），拉你进统计讨论群和众多热爱研究的小伙伴们一起交流学习。

点击左下角“阅读原文”，看看医咖会既往推送了哪些统计教程。或者使用电脑打开网址：http://www.mediecogroup.com/，查看70种SPSS教程。

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊

薅广电羊毛！100元话费实付94.6元，还有电费96.9充100元！招团长~

警察踢打校园欺凌者：当事人不愿返校，派出所拒收锦旗

疯传！广州地铁突发！警方介入