查看原文
其他

流行病学研究中的样本代表性问题(二)

中华疾病控制杂志 中华疾病控制杂志 2020-09-12


摘自:中华疾病控制杂志,2019,23(2):125-128.

作者:潘雄飞 王意 叶依 潘安

单位:华中科技大学同济医学院公共卫生学院流行病与卫生统计学系

DOI:10.16462/j.cnki.zhjbkz.2019.02.001


【摘要】

       本文针对流行病学研究中多中心干预设计、效应异质性、应答率、失访率等问题,深入分析了其与样本代表性的关系。同时,针对当前精准医学和基于大数据流行病学研究的发展趋势,讨论了样本代表性问题的现实意义。总而言之,人群健康研究工作者应正确认识样本代表性在流行病学研究中的作用和地位,科学合理设计研究以获得最佳证据。

 

【正文】

在两篇系列文章的第一篇中介绍了流行病学中样本代表性以及相关基础概念,同时详细阐述了四种主要流行病学研究设计中样本代表性的价值和实际可行性。在本篇文章中,将讨论流行病学样本代表性与研究实施、分析中若干相关重要问题的关系,同时解读了精准医学和大数据背景下样本代表性问题的现实意义。

 

1、流行病学样本代表性与多中心干预设计

干预性研究中常常会使用多中心研究设计,在3期临床试验中尤其如此。有人认为,多中心研究设计是为了确保研究对象(人群)能代表目标干预人群,而事实并非完全如此。多中心干预研究至少出于三方面考虑:(1)提高研究样本量,从而保证研究统计效能和纳入效率;(2)增加研究对象来源,扩大研究对象异质性,估算多来源研究对象的平均效应,从而改善研究结果的外推性;(3)方便探讨干预效应在不同亚组或疾病亚型中的异质性,也即是否存在效应修饰问题,从而确定干预效果尤其突出的亚组或疾病亚型。这三方面优势有助于改善临床试验结果的内部真实性和外推性[1-2],因此来自多中心临床试验的结果常被认为优于单中心研究,不过这并不等同于其研究人群具有绝对的代表性。多中心干预研究同样需要设置严格的纳入和排除标准以控制混杂和偏倚,此时研究对象也很难代表目标人群[3-4]。同时,增加研究中心数量也难以确保干预效应估计值和安全性结果能代表目标应用人群的实际情况,这也是药物上市后仍需常规开展4期临床试验以进一步了解目标人群干预效果和安全性的原因之一[5]。考虑到干预研究中研究人群无法较好代表目标人群,以来源广泛的患者为基础的真实世界证据逐渐为临床研究者所推崇[6],甚至也获得了美国食品药品监督局的认可,用于辅助支持药物和医疗器械上市审批。类似地,随机对照试验中的实效性临床研究因其研究人群纳入广泛且更符合临床目标治疗对象特征[7],能部分改善目标患者人群代表性,而逐渐受到关注。因此,提高临床试验结论的外部真实性并不能完全依靠增加研究人群的代表性达到目的,综合应用多种设计严谨的干预性研究和观察性研究或许是改善临床试验结果外推性的重要途径。


2、样本代表性与效应异质性分析

流行病学研究在估计源人群暴露和疾病(或健康事件)关系时,常需要考虑亚组之间是否存在异质性,同时进一步估算不同亚组人群中的效应值。有人提出应该通过提高样本代表性来探讨亚组间效应异质性。不过,选择有代表性的人群或者进行概率抽样可能导致一些亚组人数较少,从而难以准确估计这些亚组的暴露效应 [8]。事实上,在疑似存在效应异质性的情况下,通过选择性提高部分亚组的研究人群比例和绝对数量,能在确保充足统计效能前提下,估算各亚组效应值,这种做法会比选择有代表性样本更有效率,且更能准确探讨效应修饰或异质性问题[9]。因此,提高样本代表性并非探讨效应异质性的唯一有效方法,而确保研究人群来源多样化同时以意向性抽样方式确保研究亚组人群样本量会更优。

 

3、样本代表性与应答率、随访率的关系

纳入应答率和失访率是流行病学样本代表性讨论中不可回避的两个问题。流行病学研究中,常会考虑研究人群应连贯纳入同时确保一定应答率,而在随访过程中尽量降低失访率,从而尽可能减少选择偏倚。这种控制选择偏倚的策略常会被误认为是为了提高研究人群对目标人群的代表性。尤其在提高应答率问题上,更易有这样的倾向性想法。

在横断面研究中,由于研究人群需要能较好的代表目标人群,当概率抽样(或类概率抽样)确定的潜在研究对象纳入应答率较低时,会导致概率抽样被打破,因此影响研究结果的外推性。在队列研究中,不应答和失访事件在源人群中不一定随机发生[10-11],当不应答或失访(及其原因)与暴露和疾病同时存在关联且该原因与疾病关联关系独立于暴露影响时,选择性进入或退出研究 会导致选择偏倚[12-13],直接影响到研究结果的内部真实性。假设一项队列研究中吸烟(n=1000)和非吸烟组(n=1000)10年内肾功能衰竭发生率分别为10%和5%,相对危险度为2;由于重度高血压与吸烟状态相关,两组重度高血压所致不应答或失访比例存在差异,假定吸烟组中200名(20%)重度高血压患者拒绝参与研究或失访时,而非吸烟组不存在不应答或失访,同时由于重度高血压会增加肾功能衰竭风险,吸烟组在存在不应答或失访情况下10年内肾功能衰竭发生率降为7.5%,则此时计算的相对危险度为1.5,由此可见两种不同情况下关联性效应值出现明显差异[13]。增加应答率和降低失访率主要为了降低研究中出现选择偏倚的可能性,而非提高样本代表性。在队列研究中一般需要关注高失访率带来的随访信息缺失,因为这会增加选择偏倚的可能性从而降低研究结果的内部真实性;而对于研究人群来源和特征广泛的大型队列,低应答率所导致的选择偏倚的影响一般而言比较有限[14],但也需要具体情况具体分析。如英国生物样本库研究样本量高达50多万,尽管应答率仅10%左右,其研究对象的多样性仍然确保了研究结果的良好内部真实性[15-17]。同样的,在美国护士健康研究和健康从业者队列等大型队列研究中的应答率也不高。在病例对照研究中,低应答率会破坏病例和对照来自同一源人群的研究基础,进而影响研究结果的内部真实性,而干预性研究中由于研究人群通常会受到严格的纳入和排除标准限制,低应答和高失访所带来的选择偏倚问题常会比队列研究更加严重,导致无法准确估计干预效应。总而言之,增加纳入应答和减少失访常常并非完全出于增加样本代表性的考量,而是为了改善研究结果内部真实性,为研究结果外推打下基础。

 

4、精准医学和大数据背景下的样本代表性问题

系统生物学、生物信息学、多组学检测技术、医学影像学、电子病例和健康档案、大数据分析等领域的发展催生了精准医学的迅速发展。在精准医学和大数据背景下,目前全球范围内多个国家正在建立全国性大型人群队列,尽管这些队列样本量通常较大且采集数据广泛,但是绝大多数并未强调要代表某个国家的人群。

2004年我国启动的中国慢性疾病前瞻性研究在全国10个地区50万成人中广泛调查人口学、社会经济、生活方式等数据,同时采集血样进行分析,对主要慢性疾病的遗传和环境病因进行深入研究[18-19]。英国生物样本库研究在2006-2010年间纳入50多万人群,采集研究人群血样、尿样和唾液等生物样本,调查详细个人信息并长期追踪疾病和死亡状况,目前该项目50多万人的基因组数据和常规个人数据已广泛用于多种疾病的精准预防和治疗研究及应用[20]。目前美国开展的全民研究项目,也即精准医学计划,旨在通过建立百万级队列人群研究生物系统、生活方式、环境暴露等因素对疾病的影响,利用最新技术和知识为肿瘤和糖尿病等慢性疾病患者提供精准预防和治疗[21]。这三项全国性大型队列研究均未强调研究样本能代表全国或者地区人群,而更多关注人群暴露分布和背景特征的多样性。

在大型队列研究中,也曾有因样本代表性问题付出沉重代价的教训。美国开展的大型出生队列即全国儿童健康研究中就曾因是否需要招募具有全国代表性样本这一问题而产生严重分歧,最后该研究采纳了基于社区的概率抽样,从而给研究实施带来了巨大挑战和费用支出,这也是整个研究开展多年后于2014年被迫终止的重要原因之一[22]。就研究目的而言原本并没有必要采用全国代表性样本,这也可见过度强调样本代表性有时会带来严重不良影响[23]。

2016年中国政府提出要将精准医学纳入《“十三五”国家科技创新规划》,同时科技部计划拟在2030年前投入大量科研经费支持中国精准医疗计划[24]。在该政策背景下,中国各地已开展多项全国或地区性普通人群队列或者专病队列。由于这些队列研究所涉及的复杂多维度病因挖掘,因此在样本量上通常比较大,但是这种大样本要求并非意味着必须选择具有全国或地区代表性人群进行研究,而应强调研究人群来源的广泛性和异质性,从而为确定疾病精准防控措施打好基础。对于目前或未来即将开展的队列研究而言,可借鉴美国儿童健康研究的失败教训[22]和英国生物样本库研究的成功经验[16],不宜过度追求样本代表性而忽略研究可操作性、效率、成本,应在提高研究质量和保证研究结论内部真实性基础上,进一步探讨研究结果在目标人群中的推广和应用。

由于信息技术的发展,部分欧洲国家能将现存不同疾病监测系统、医疗信息系统、常规人群信息登记系统等不同系统进行关联,获取全国绝大多数居民的信息用于流行病学研究。毋庸置疑,这种近乎覆盖全人群的大样本和大数据给疾病(尤其是罕见疾病)研究带来了便利。这也是未来人群研究的一个重要发展趋势。在这种背景下,部分研究者会误认为样本代表性问题已不存在。考虑到即便利用全国性信息系统也可能存在未覆盖到部分弱势或边缘群体,同时纳入系统的部分人群也可能存在信息不全问题[25],根据不同研究目的实际纳入统计分析的研究人群其实并非整个全国人群也可能无法完全代表目标人群,因此通过这些信息系统进行横断面研究时仍然需要考虑到代表性问题。当然,如前所述,如果进行病因或者干预效果推断分析,由于研究人群来源广泛,代表性问题的影响显得微乎其微。需要指出的是,在不同流行病学研究问题中,全国人群并不完全等同于源人群。例如在研究北欧某国成人中血压疾病患病率时,该国人群会涵盖研究源人群(成人);而在研究北欧多个国家某疾病患病率时,该国人群则为源人群的一部分;而在研究北欧多个国家成人中血压与冠心病发病的关系时,该国人群则与源人群存在交叉。不过,对于多数流行病学研究,获取全国人群信息进行研究并非必要,样本量充足的研究可以保证有良好的统计效能从而达到研究目的[26]

 

5、总结

在中国大队列研究和精准医学蓬勃发展的大背景下,人群研究工作者在开展研究时应该避免过度强调样本代表性,同时研究结果使用者也应该避免受到误导。研究应该更多关注如何根据研究假设和已有资源合理规划研究方案和选择可行性样本,在降低偏倚和控制混杂的情况下,确保能获得内部真实性较好的结果。在此基础上通过比较研究人群与目标人群的差异,结合多来源流行病学研究甚至生物医学基础研究验证上述结论能否推广至特定目标人群。


【参考文献】

[1] Robertson D, Williams GH. Clinical and translational science: principles of human research [J]. Academic Press, 2009.

[2] Appel LJ. A primer on the design, conduct, and interpretation of clinical trials [J]. Clin J Am Soc Nephrol, 2006,1(6):1360-1367. DOI: 10.2215/CJN.02850806.

[3] Rothwell PM. External validity of randomised controlled trials: "to whom do the results of this trial apply?" [J]. Lancet, 2005,365(9453):82-93. DOI: 10.1016/S0140-6736(04)17670-8.

[4] Rothwell PM. Factors that can affect the external validity of randomised controlled trials [J]. PLoS Clin Trials, 2006,1(1):e9. DOI: 10.1371/journal.pctr.0010009.

[5] Mishra D, Vora J. Non interventional drug studies in oncology: Why we need them? [J]. Perspect Clin Res, 2010,1(4):128-133. DOI: 10.4103/2229-3485.71770.

[6] Sherman RE, Anderson SA, Dal Pan GJ, et al. Real-world evidence - what is it and what can it tell us? [J]. N Engl J Med, 2016,375(23):2293-2297. DOI: 10.1056/NEJMsb1609216.

[7] 唐金陵,杨祖耀. 观察与实验效力与效果 [J]. 中华流行病学杂志, 2014,35(3):221-227. DOI: 10.3760/cma.j.issn.0254-6450.2014.03.001.

Tang JL,Yang ZY, Observation versus experiment, efficacy versus effectiveness [J]. Chin J Epidemiol, 2014,35(03):221-227. DOI: 10.3760/cma.j.issn.0254-6450.2014.03.001.

[8] Stang A, Jockel KH. Avoidance of representativeness in presence of effect modification [J]. Int J Epidemiol, 2014,43(2):630-631. DOI: 10.1093/ije/dyt263. 

[9] Rothman K, Hatch E, Gallacher J. Representativeness is not helpful in studying heterogeneity of effects across subgroups [J]. Int J Epidemiol, 2014,43(2):633-634.

[10] Kristman V, Manno M, Cote P. Loss to follow-up in cohort studies: how much is too much? [J]. Eur J Epidemiol, 2004,19(8):751-760. DOI:10.1023/B:EJEP.0000036568.02655.f8.

[11] Stang A. Nonresponse research--an underdeveloped field in epidemiology [J]. Eur J Epidemiol, 2003,18(10):929-931.

[12] Cole SR, Platt RW, Schisterman EF, et al. Illustrating bias due to conditioning on a collider [J]. Int J Epidemiol, 2010,39(2):417-420. DOI: 10.1093/ije/dyp334. 

[13] Tripepi G, Jager KJ, Dekker FW, et al. Selection bias and information bias in clinical research [J]. Nephron Clin Pract, 2010,115(2):c94-99. DOI:10.1159/000312871.

[14] Nohr EA, Frydenberg M, Henriksen TB, et al. Does low participation in cohort studies induce bias? [J]. Epidemiology, 2006,17(4):413-418. DOI:10.1097/01.ede.0000220549.14

177.60.

[15] Manolio TA, Collins R. Enhancing the feasibility of large cohort studies [J]. JAMA, 2010, 304(20):2290-2291. DOI: 10.1001/jama.2010.1686.

[16] Manolio TA, Weis BK, Cowie CC, et al. New models for large prospective studies: is there a better way? [J]. Am J Epidemiol, 2012,175(9):859-866. DOI: 10.1093/aje/kws409.

[17] Manolio TA, Collins R, National Institutes of Health New Models Workshop Participants. Vehement agreement on new models? [J]. Am J Epidemiol, 2013,177(4):290-291. DOI: 10.1093/aje/kws410. 

[18] Chen Z, Lee L, Chen J, et al. Cohort profile: the Kadoorie Study of Chronic Disease in China (KSCDC) [J]. Int J Epidemiol, 2005,34(6):1243-1249. DOI: 10.1093/ije/dyi174.

[19] Chen Z, Chen J, Collins R, et al. China Kadoorie Biobank of 0.5 million people: survey methods, baseline characteristics and long-term follow-up [J]. Int J Epidemiol,2011,40(6):

1652-1666. DOI:10.1093/ije/dyr120. 

[20] Sudlow C, Gallacher J, Allen N, et al. UK biobank: an open access resource for identifying the causes of a wide range of complex diseases of middle and old age. PLoS Med, 2015,12(3):e1001779. DOI: 10.1371/journal.pmed.1001779.

[21] Kuehn BM. Study recruitment to accelerate precision medicine [J].  JAMA, 

2018,319(4):332.

[22] Schmidt C. The Death of a Study. A long-term study of childhood disease burned through $1.3 billion in taxpayer funds, only to be mothballed before it ever got off the ground. Why? [EB/OL]. (2016-5-25) [2018-6-19]. https://undark.org/article/the-death-of-a-study-national-childrens-study/.

[23] Rothman KJ, Gallacher JE, Hatch EE. Why representativeness should be avoided [J]. Int J Epidemiol, 2013,42(4):1012-1014. DOI: 10.1093/ije/dys223.

[24] Zhan Q, Qian H. Opportunities and advantages for the development of precision medicine in China [J]. Science/AAAS Custom Publishing Office, Precision medicine in China Washington, DC:Science/AAAS 2016: 6.

[25] Thygesen LC, Ersboll AK. When the entire population is the sample: strengths and limitations in register-based epidemiology [J]. Eur J Epidemiol, 2014,29(8):551-558. DOI: 10.1007/s10654-013-9873-0. 

[26] 唐金陵, 李立明. 关于循证医学、精准医学和大数据研究的几点看法 [J]. 中华流行病学杂志, 2018,39(1):1-7. DOI: 10.3760/cma.j.issn.0254-6450.2018.01.001.

Tang JL, Li LM. Some reflections on evidenced-based medicine, precision medicine, and big data-based research [J]. Chin J Epidemiol, 2018,39(1):1-7. DOI: 10.3760/cma.j.issn.

0254-6450.2018.01.001.


文章已于修改

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存