观察性疗效比较研究(CER)的样本量计算,研究实例及注意事项
本文内容来源:詹思延教授主译的《观察性疗效比较研究的方案制定:使用者指南》,原文为美国卫生保健研究和质量管理署(The Agency for Health care Research and Quality,AHRQ)组织编写的《Developing a Protocol for Observational Comparative Effectiveness Research: A User’s Guide》。
感谢詹思延教授的授权!
以下内容摘自《观察性疗效比较研究的方案制定:使用者指南》的“第九章 样本量计算”章节,该章节的作者为:Eric S. Johnson, Ph.D., M.P.H.;M. Alan Brookhart, Ph.D.;Jessica A. Myers, Ph.D. 该章节的译者为张越伦博士。更详细的内容请查看书籍原文。
RCT研究中样本量计算需要考虑的问题,在非随机对照研究中同样需要考虑,但一些参数的设定方法和计算方法与RCT设计可能有一些区别。下面的内容将着重介绍非随机对照试验设计中样本量计算需要考虑的问题及处理方法。
观察性疗效比较研究样本量的计算
影响非随机对照试验中检验效能计算的因素往往比RCT研究中的多。例如研究者在使用倾向评分或配对分析等统计分析前,可能很难获得人群中结局指标比较的效应值大小。除此之外,在研究者进行倾向评分或配对的过程中可能会人为地排除一些研究对象。这些都是在非随机对照试验检验效能计算中需要考虑的问题。
样本量计算举例
此处举一个实际研究的例子来说明样本量的计算过程。Schneeweiss等曾经开展一项队列研究,旨在比较老年患者中常规治疗组和非典型抗精神病药治疗组短期(治疗开始180天内)死亡率。该研究在STROBE出台前就已经开展,所以在方法学部分没有介绍样本量计算的原理与方法。
本研究的主要研究问题是与非常规抗精神病治疗组相比,常规治疗组研究对象是否有更高的短期全死因死亡率。我们基于研究者报告的各组患者结局事件发生数来计算该研究的检验效能。
考虑优效性检验,非常规治疗组中患者粗死亡率为9.58%,常规治疗组中死亡率比非常规治疗组高10%(粗死亡率为10.54%),研究者认为这个差异具有临床意义。
基于上述数据,我们使用Stata软件中sampsi命令,计算得到本研究的检验效能为0.83。在亚组分析中,检验效能可能比这个数值小,但就研究的主要结局指标和假设检验来说,该研究已经纳入了足够多的患者。
非随机对照研究样本量计算注意事项
假设有两个研究,一个是RCT设计,一个是观察性研究设计。两个研究都针对同一总体内的同一结局,都是比较一种干预措施和对照的效果差异。在数据分析中,不采取任何调整混杂的统计方法,仅根据单因素分析判断干预措施和对照效果的差异。我们假设在RCT研究和观察性研究中每一组内纳入同样且足够多的研究对象。
在RCT研究中,大多执行了严格的研究方案,可以更好地排除未严格执行研究计划对结果产生的影响。更重要的是,通过随机化的过程,已经排除了绝大多数的混杂因素的影响,此时的假阳性结果和假阴性结果很可能是单纯的随机结果或是样本量不足导致的结果。
而在观察性研究中,由于一些潜在的混杂因素和其他信息偏倚影响,当出现阴性结果时,我们不能简单断定这个阴性结果是由于样本量不足引起的,因为这些偏倚也可能使原本有关联的干预措施和结局指标变得无统计学关联。
故RCT研究统计结果误差中Ⅰ类错误和Ⅱ类错误所占的比例高于其在观察性研究中所占的比例。
在一些研究中,为了避免混杂偏倚对分析结果造成影响,研究设计会要求仅纳入近期使用干预措施的患者。
通过分布式网络,回顾性数据库研究越来越大,由于统计效力不足(样本量不够)导致常见干预主要结局指标阴性的可能性越来越小。读者需要考虑的是,研究得到阳性结果时,两组很小的差异是否足够对临床决策造成影响。例如,数据库研究可能发现5%的超额风险,但其仍低于前瞻性研究中所能发现的具有最小临床意义的差值。
在一些例子中,对混杂因素的控制会导致研究结果精确度下降。例如,在使用倾向评分对研究对象进行配对时,几乎可以肯定的是两组研究对象的倾向评分分布不完全相同。这样就会有一部分患者由于其基本特征不符合配对要求而被研究者从统计分析中剔除。
在Soloman等使用倾向评分匹配技术的研究中,进入队列的有23647例患者,最终仅有12840例患者符合倾向评分匹配的要求,即仅有54%的研究对象成功匹配进入分析。
诸如倾向评分等统计技术通常在研究方案定稿后才被研究者使用,因此研究者应该在研究开始和统计分析进行前仔细考虑研究中可能存在的敏感性分析,如果在随访中有25%的研究对象出现失访,那么也应该考虑失访的研究对象会对研究精确度和检验效能有何影响。
在进行回顾性数据库分析时,由于在研究开始前研究对象资料已经存在,这类研究往往没有患者信息收集的详细计划,数据库中缺失值的比例较高,特别是临床检查项目(例如,血压、体重指数、实验室检查项目)。如果研究者仅对完整数据进行分析,而剔除任何一个关键变量有缺失数据的个体,就会导致样本量减少。
根据数据缺失的机制不同,研究者可以采用一些数据填补技术进行缺失值估计,从而避免这部分研究对象的丢失。倾向评分会大大增加数据填补的工作量。在使用倾向评分前,无法预知有多少研究对象能够成功匹配,所以可能出现研究者花费大量时间精力进行数据填补而最终还是有很多研究对象丢失的问题。
结论
在观察性疗效比较研究中,为了纳入合适的样本量,在研究设计阶段,研究者即应当提供样本量计算的依据和详细方法。相关的假设和定义均应事先明确,包括主要结局指标,最小临床效应值,变异度测量和I类、II类错误率。此外,失访,为控制混杂所采用的统计方法带来的样本量减少,以及缺失数据等也会影响样本量,此时应当考虑这些因素,并重新评估实际进入分析的样本量是否足够。
更多阅读
关注医咖会,及时获取最新统计教程
点击左下角“阅读原文”,查看全部免费统计教程。或者使用电脑打开网址:http://www.mediecogroup.com/,分类查看全部统计教程。
快加小咖个人微信(xys2019ykh),拉你进统计讨论群和众多热爱研究的小伙伴们一起交流学习。