横断面研究与病例对照研究,你真的能分清吗?
The following article is from 小白学统计 Author 小白学统计
文章来源:“小白学统计”公众号。感谢作者授权。
写在最前:本文仅代表个人观点,是个人的一些看法,有的可能与已有教材或各位老师观点不同。如有错误,请不吝指正。
关于横断面研究与病例对照研究的区别,已有不少文章谈到,为什么这里还要老生常谈这个话题。其实本文更多的是自己的一些看法,有的可能不对,因为我个人的一些想法有的跟流行病学教材并不一致,但我仍想提出来,希望各位朋友和同道指正。
这里不想说横断面研究和病例对照研究的标准概念,其实说区分,似乎也很简单,大家都知道,横断面研究是同时收集暴露和结局,病例对照研究是先确定结局再寻找原因。“《柳叶刀》临床研究基本概念”中的一幅图就可以说的很清楚。
从概念上理解似乎真的很简单,那为什么实际中还有这么多人就不明白自己到底是用的什么研究呢?因为理论上你知道了,并不见得实际中就真能判断。理论上你看懂了,也真的看明白了,仍然不能代表实际中你就真的能分辨。就像买寿山石,我很清楚芙蓉石的特点,可是实际中真遇到一块寿山石,我仍然不敢保证一定能判断它到底是不是芙蓉。
比如下面这个例子。
例1:本研究采用以医院为基础的病例对照研究方法,选择一组食管癌患者,匹配一组非食管癌患者为对照组,调查并比较两组患者的一般人口学特征、生活方式及身体测量值(身高、体质量、腰围及臀围)的差异,确定食管癌与BMI及腰臀比(WHR)之间的关联,为食管癌的人群防治及干预措施的实施提供科学依据。
这个到底是病例对照研究还是横断面研究?很多人认为,这是横断面调查,理由很简单,因为这些指标都是同时获得的。
再说一个更实际的临床中的例子。
例2:某研究分析腹腔镜右半结肠切除术后并发症的影响因素,该研究采用“回顾性研究”,提取医院某一时期接受右半结肠切除术患者的围手术期临床资料。根据并发症的定义,将患者分为有并发症和无并发症,并分析并发症的影响因素(即提取的临床资料)。
这种研究在医院中十分常见,翻阅以往病历进行分析。那这个又是什么研究?有人说,这就叫“回顾性研究”。
如果撇开研究不谈,给你下面一份数据,你能区分这是什么研究获得的数据吗?
你没有办法做任何区分。对于数据分析来说,它们得到的结果完全一样。然而最终下结论却未必一样,这就取决于你的研究类型。
有人说,区分横断面研究和病例对照研究主要是根据结局和暴露的时间,如果结局和暴露是同时发生的,就是横断面研究;如果暴露发生在结局之前,就是病例对照研究。
那对于上表的数据,你做调查的时候,询问吸烟,到底是询问以前的吸烟还是现在的吸烟?问一年前吸烟就是病例对照研究?问现在是否吸烟就是横断面研究?
但是仔细想想,即使横断面调查中设计的问卷,经常也涉及到以往的一些指标。比如调查某学校中学生的睡眠质量,通过量表进行调查,量表的问题本身就是调查前一段时间的情况。如果这样来区分的话,几乎就没有真正的横断面调查了。
还有人说,区分横断面研究和病例对照研究主要是根据调查时间,看暴露和结局是否是同一时间点获得(当然,时间点可长可短,并不一定是即时)。同一时间点点获得的,就是横断面研究。
那我们举个例子,我要分析某地区65岁以上老年人高血压与吸烟的关系,把高血压作为结局,吸烟作为暴露。我的样本很简单,就是选择一个社区。我今天开始调查,如果我调查人手足够多,我可以在一天内(一个时间点)就获得了结局和暴露。这是同一时间点获得的,那这个研究一定是横断面研究?
个人认为,区分横断面研究和病例对照研究并不是单纯根据时间点(虽然可能大多数有效),更关键的是根据研究目的、结局和暴露确定的先后顺序。
从研究目的来说,比如,调查某社区老年人吸烟与高血压的关系,假定在理想的状态下,我把所有社区65岁以上老年人都召集起来,一个一个来,每人过来测一下血压,确定结局;然后同时每人发一张问卷,问有无吸烟(假定吸烟有明确定义)。
这种情况可以认为是横断面调查,因为调查时并没有刻意寻找高血压和非高血压的人。
再说另一种方式:如果我在调查时,已经知道了这个社区中哪户有65岁以上的高血压患者(比如,可能是根据以往横断面调查的结果确定的),那我先调查这些高血压患者的吸烟情况,然后再采用某种对照方式(比如邻居对照、随机对照)选择一定数量的非高血压人群,也给他们问卷调查吸烟情况。
这时候是病例对照研究,因为研究者刻意先确定了高血压(病例)和非高血压(对照)。
举个最简单例子,我横切一块西瓜。假定西瓜总是不可能百分百所有位置都很好,总有部分位置不好。这就是结局。
如果是横断面调查,我切一刀,切开后才会知道有多大比例不好,多大比例好。这时候比较好的部位(病例)和不好的部位(对照)有什么特征差异。
图1 横断面研究示意图
而如果是病例对照研究,我先知道了不好的地方,先选择不好的地方(病例,图2左),然后根据一定原则(如配比、随机抽取等)选择好的地方(对照,图2右),比较他们的特征。
图2 病例对照研究示意图
从研究目的来看,病例对照研究首先确定了病例和对照,而横断面研究一开始并不确定,只是对一个人群调查而已,调查后才知道这个人群里有多少高血压和非高血压。而病例对照研究则是一开始就先在这个人群中把高血压选出来,然后确定对照(可能是全部非高血压,也可能是选择部分非高血压),一开始就知道了病例和对照。
这也正是为什么病例对照研究在医院中更容易开展的原因。因为医院里很容易确定病例。如果在社区中,想要确定一个社区的所有病例,仍然需要先做一个全部社区人群的调查才能知道。所以社区中往往需要在横断面调查后再开展病例对照研究,否则你一开始如何确定病例?
再回头来分析一下例2。对于这个例子,很多临床大夫可能都这么做过。对研究者来说,这些数据指标都是同时获得的。那这个研究是横断面调查吗?
个人认为,并非如此,这是一个病例对照研究。因为研究者虽然是同时获得这些指标,但从研究者目的来看,却是先明确了有无并发症作为结局,然后分析影响因素。
根据这一思路,例1是什么类型呢?个人认为,仍是病例对照研究,因为研究者一开始就明确了病例和对照,虽然研究因素可能是同一时间点调查或测量获得,然而,研究者思路是先确定病例和对照,再分析与各因素的关系。但是,这种研究证据很弱,因为毕竟调查的是当前的BMI等指标,无法说明BMI等指标与食管癌的因果关系。
这里有个很关键也很纠结的问题,也是不少老师坚持认为这不是病例对照研究的理由之一,那就是:例1中这些所谓的暴露因素,都是当时测量的,不是以前的因素。而病例对照研究的暴露应该是回顾以前的暴露(如回顾去年的吸烟情况)。
这个确实很有道理,然而再往深处想一下,如果按这种理念,那像BMI这种指标如果作为暴露,岂不是没法做病例对照研究了?因为BMI永远是测量当前的,不可能穿越时光回去一个月前测量他/她的BMI。
所以,个人观点,这仍然是病例对照研究,虽然测量的是当前BMI,但这个BMI并不是只能代表今天的BMI水平,也可以代表以前的BMI水平。但是应该有个前提,即BMI在短期内是不会有太大变化的。
因为有的指标你是无法回顾收集的,比如血砷水平,怎么测昨天的血砷?只能测当前的。然而,只要当前的水平能够代表一定时期的水平即可。否则这些指标(作为暴露因素)真的就没法做病例对照研究了。
可能还有人继续较真,你怎么知道他们是短期内没有太大变化的?也许有的人上个月160斤,这个月就减到了120斤呢。我只能说,我也没有办法。因为如果这么认真的话,科研真的很难开展。不要说体重,即便性别,谁能保证是一直固定不变的。科研要严谨,但没必要钻牛角尖。
以上观点如果不妥,欢迎各位老师批评指正。
最后再提一个开放性观点:当前流行病学教材中认为,横断面研究是描述性研究。这一观点是否正确?
也许,对于人群调查来说,主要目的是为了获得某疾病患病率,或许没错;然而,基于医院实施的横断面调查,目的并不是为了获得率(实际上也几乎不可能获得),更主要的目的在于分析(虽然分析结论未必有很强的证据)。比如收集了2018年1-12月的白血病病例,分析这些疾病的各种临床特征、并发症等,并分析它们之间的关联。
这时候认为横断面研究是描述性研究,是否正确?
有的人说,因为横断面研究不做推断,这个听起来很牵强,因为很多横断面研究都是做统计推断的,也都有统计假设。那为什么还归为描述性研究?其实这一点我一直百思不得其解,我个人总认为横断面研究其实应该归为分析性研究。欢迎各位同道答疑解惑。
更多阅读
关注医咖会,轻松学习统计学~
快加小咖个人微信(xys2018ykf),拉你进统计讨论群和众多热爱研究的小伙伴们一起交流学习。
点击左下角“阅读原文”,看看医咖会既往推送了哪些统计教程。或者使用电脑打开网址:http://www.mediecogroup.com/,查看70种SPSS教程。