“如何分析真实世界临床研究数据”系列文章开启!敬请关注。
一、为什么要开展真实世界研究
最近5年来,真实世界研究(Real World Study, RWS)实在是红热地发紫。不管是临床医生、还是生物统计师、还是药企们,都似乎在说它是21世纪的临床研究最好的方法。它将取代"RCT",成为临床研究第一方法。
对此,本人持保留意见。本人不认为真实世界研究将成为临床研究第一方法,它只不过是大数据时代背景下一个新概念,新瓶旧酒的概念而已。西医临床、流行病学领域早已经在进行真实世界研究了,主要是观察性临床流行病学研究,因此它并不稀奇。它更多的作用是帮助医学专业人士圈项目、发论文,其次才是提供临床循证依据。学过流行病学的人都知道,观察性研究无法避免选择偏倚、信息偏倚和混杂偏倚,因此其证据的可信度是不充分的,特别是横截面调查和病例对照研究。
它能够取代RCT吗?不能。
它完全能够控制混杂因素吗?不能。
它的证据有一天会是金标准吗?某一些领域会。
它确实是大数据时代比较好的方法之一,但是医学大数据产生出来的是一堆不可信的数据。
有人说,RCT只能证明效力而无法证明效果和解决外部可推性的问题,但RWS可以。 我说,大部分情况下,RWS连效果本身都无法确凿证明,导致外部可推性对个体意义也不大。
不要迷恋它!它只是RCT研究的补充!
那么它的意义是什么?我为什么要着手写真实世界研究的分析方法?
存在就有价值。真实世界研究对于普通临床医生而言,最大的意义在于:在大数据时代,利用可及的临床数据,辅助RCT研究,创造更多的临床研究论文,实现更多的个人价值和社会价值。这是临床研究者最需要的,没有几位临床工作者拥有庞大的团队、充裕的资金与时间、充沛的精力开展一项RCT临床研究。
系列作者:郑卫军 副教授 浙江中医药大学医学统计学教研室主任
二、真实世界研究设计与数据来源
在研究设计上,真实世界研究主要可以分为以下几种:
1. 横截面调查(Cross-sectional Study)
2. 病例对照研究(Case Control Study)
3. 队列研究(Cohort Study)
4. 非随机对照研究(Non RCT)
5. 实效性研究(Pragmatic Study)
6. 病例报告研究(Case Report)
7. 经济效益研究(Economic Effectiveness Study)
总的来说,真实世界研究的概念实在太泛了,几乎把大部分临床非RCT研究视为为真实世界研究。他们共同的特点是什么?是真实,另外是研究因素的分组是不均衡的,缺乏可比性。
数据来源方面,真实世界研究数据来源于以下几类:
1. 第一类,也就是医院HIS系统电子病历数据----大数据
大多数临床工作者,面对的不是一个临床干预方案,而是病人和数据。他们没有太多的精力开展干预性研究,最好是把现有的数据收集起来去分析。这虽然听起来没有研究设计的味道,但是恰恰是当前我国临床工作者能够实现的重要方式。所以医院电子病历数据就是最真实数据。
2. 第二类,调查的数据
获取调查数据需要花一些精力,需要临床研究团队拿着问卷和测量工具去获得病人的数据,但该类型并非干预性的研究。它常见于经过精心设计的观察性研究,比如横截面调查、病例对照研究和队列研究。除了队列研究之外,另外两种方法相对简单实用,队列研究则需要更多的随访,更长的时间,但医务工作者们可以选择回顾性队列研究,相对可靠又省时的方法。
3. 第三类,监测类数据
此类研究可以认为是常规电子病历数据的延伸,只不过主持者一般需要通过建立一个额外平台,来规范临床病人相关的数据,使研究数据质量更可靠、结论更可信。常见的有临床药物上市后评价、注册登记研究。这类研究通过统一平台,形成较大规模的数据,可有效评价药物上市后的一些真实效果。
4. 第四类,临床试验数据
真实世界临床研究包括临床试验,但这类临床试验不像RCT一样严格纳入和排除标准,它在人群选择上更为变通,要求更宽松,甚至可以按照患者意愿选择干预组或对照组。因此,常见于非随机对照试验,或者是实效性临床试验。当然这种研究相对少见,毕竟进行干预,又不随机的研究,是一种既浪费精力和资金,结果又不可信的研究。
一般来说,最常见的是第一种和第二种研究形式。
三、真实世界统计学方法
真实世界临床研究里,统计学的地位如何?
第一个答案是,相对于RCT研究,统计学在真实世界研究更为举足轻重。 第二个答案是,绝大多数真实世界研究倚仗回归分析方法。
真实世界数据转化为真实世界证据,需要回归分析方法的深度支持。回归分析方法可以帮助临床研究实现以下目的:探讨影响因素、评价临床效果、控制混杂因素、构建分类与预测模型。
这些回归方法,包括线性回归、Lasso回归、logistic回归、方差分析模型、Poisson回归、COX比例风险模型、随机效应模型、广义混合线性模型、广义估计方程、多水平模型等方法。
所有回归方法,重要目的均是控制混杂因素。
近年来,在回归的基础上,发展了更多的控制混杂的统计学技术。2006年美国流行病学杂志 Am J Epidemiol 总结了真实世界研究控制混杂常用的五种方法:
1. 多元回归模型调整混杂
2. 倾向性评分匹配(PSM)后构建回归模型
3. 回归模型调整倾向性评分(PS)
4. 回归模型+加权(IPTW)处理
5. 回归模型+加权(SMR)处理
这些你了解一点吗?
上述提及的回归方法和相结合的技术,基本上覆盖了几乎所有的真实世界临床研究主流方法。但是,由于缺少相应能够系统地介绍回归方法在真实世界研究中应用的文章,对于普通临床工作者来说,这些方法相当于蝌蚪文,实在难以消化吸收。这就是为什么我准备写一系列详实的材料来推动真实世界研究的了。
四、本系列主要内容
本系列包括以下几个部分:
1. 真实世界临床研究主要回归方法。这一部分是对主要回归方法的基本原理、应用条件、SPSS软件分析基本方法做基本介绍 。
2. 回归技术方法。这部分主要介绍回归建模时,如何进行变量筛选、如何处理不同类型的自变量、如何进行模型诊断和评价。你还认为回归分析自变量筛选的方式是单因素再多因素,P值小于0.05才纳入的吗?那就落伍了。
3. 交互与混杂的识别与控制方法。这部分介绍如何识别交互效应和混杂效应、如何开展交互分析、如何运用分层分析、回归分析、倾向得分方法、逆向加权方法进行混杂偏倚的控制。本部分内容是真实世界研究统计学最为核心的部分。
4. 复杂数据的回归方法与应用。该部分将介绍异常数据如缺失数据的处理、纵向或重复测量数据的分析方法、聚集性数据的混合效应模型、
5. 临床预测模型研究方法与应用。 针对当前的热门研究方向,临床预测模型,本系列以案例的方式介绍logistic回归、COX回归以及机器学习方法来探讨,如何构建临床预测模型。
我将结合理论、统计方法和SPSS、R语言软件操作方法来详细阐述如何用回归方法来构建评价真实世界研究的发病因素和临床疗效,预计总文章数在50讲左右。
五、其他说明
1. 本系列文章面向所有参与临床研究的分析人员。此外,由于方法学的相同性,同样适用于护理研究、公共卫生研究、中医研究。阅读对象是具有一定的统计学知识基础的临床医生、护理师、公共卫生医师和数据分析人员。
2. 系列将从第二部分开始介绍,每周更新2-3篇不等。第一部分不再一一发送,届时统一呈现在公众号中。
3. 本号已经有相关的真实世界研究若干篇论文,诸位可作基本的了解。
4. 此外,关注公众号后,发送关键词“真实世界”,可获得《新英格兰》、《柳叶刀》、《JAMA》、《BMJ》四大顶级杂志关于真实世界研究的10篇论述。