查看原文
其他

临床研究方法基础(2/3):研究的组成与步骤

唐金陵 韩笑然 临床研究与循证医学 2022-03-25


目录



一、引言
二、研究设计

三、研究的组成和步骤

(一)研究问题
(二)研究设计
(三)研究对象
(四)样本量
(五)研究变量
(六)研究结果

四、误差和推论
五、其他研究设计
六、本章概要


三、研究的组成和步骤

简单地讲,一项研究应有以下几个基本部分组成:研究问题、研究设计、研究对象、研究变量、结果和结论。因此,从研究步骤上讲,在时间先后顺序上研究者依次应该做的事情是:确定研究问题、选择研究设计、选择研究对象、测量研究变量、估计研究结果,以及做出科学推论(图9)。

图9 流行病学研究的步骤和内容

(一)研究问题

研究问题是一项临床研究的灵魂,决定一项研究的临床应用价值,也是选择和进行研究设计以及选择研究对象、确定研究变量和选择数据分析方法的统领。换言之,一项研究的活动都是为了回答最初的研究问题而进行的。当研究问题不明确时,如何确定研究的其他程序和内容将变得盲目。

研究问题决定研究的意义,研究设计决定结果的可信度,可用资源和伦理要求决定研究的可行性(图10)。一个没有意义的研究问题,对其回答的可信度再高,该项研究还是没有意义,消耗的资源就是浪费,浪费资源是不符合伦理的。对临床研究问题意义最基本的要求是新颖且具有价值:新颖指全新的或是尚不能肯定回答的问题,价值在于研究结果可以用来改善人们健康的作用。

图10 研究问题、研究设计和研究资源的关系


医学实践常见的研究问题不外乎:疾病负担、病因和危险因素、诊断的准确性、疾病的转归和预后、治疗的效果、治疗的毒副作用、干预的经济学评价等。疾病负担主要指对一个疾病的严重程度及其在人群中的发病和患病频度。疾病病因和危险因素系指可以引起疾病发生的因素,从流行病学研究意义上讲,可以把二者等同对待。

诊断的准确性是指一个检查(测试或影像)能够正确区分无病和有病状态的能力,它只部分决定了一项检查的临床价值。疾病的转归和预后指一个疾病在自然情况下或医学干预后演化和发展的情况。治疗的效果是治疗可以给病人带来的好处,毒副作用是治疗给病人带来的害处。

干预的经济学评价是对干预措施成本-效果或成本-效用的分析,如5年内预防一例冠心病所需要的总费用是多少。这些都是医学实践中常见的问题,是医学决策和临床实践必须不断面对的问题。只有通过系统的科学研究,才能可靠地回答这些问题。

(二)研究设计

对于每种实践问题,都有多种研究设计可以采用(表4)。

表4 临床研究问题与可用的常见研究设计

一般来讲,研究需要的资源(包括时间)与结果的可信度成正比,从高到低依次为:随机对照试验、队列研究和病例对照研究(图11)。兼顾可信度和可行性两个因素,每种研究问题都有相应最优可行的研究设计(表5)。


图11 常见研究类型所需资源、结果真实性和最适研究问题的比较


表5 医学实践问题与最优可行的研究设计


对于疾病患病率的研究,现况研究就足够了。简单地说,现况研究就是对一群人某时点时的特征进行的调查。对于病因和危险因素的确定,最优的研究是队列研究,由于伦理的限制不能使用随机对照试验。对于疾病预后及其严重程度的了解则需要追踪观察病人,近似于队列研究,也可以从临床试验中获得。


对于诊断准确性的评估只需要现况研究,但是对于诊断和治疗联合效果的评估,如癌症的早诊断早治疗,则需要随机对照试验。对于医学干预措施的评估,最优的研究设计是随机对照试验,尤其是当干预效果不是很大时,例如一般抗血压药物可在100个治疗的病人中预防3-5例心血管事件。


对治疗常见的毒副作用,在随机对照试验评估疗效的同时就可以确定。但是对于严重罕见的慢性不良反应,如发生率在千分之一以下的死亡和癌症事件,评估疗效的临床试验一般由于样本量不够大或者随访时间不够长,不能检测到这么罕见的不良反应,则需要借助队列研究。当不良反应在万分之一水平或更低时,甚至队列研究也是不可行的,病例对照研究可能是唯一可行的研究设计。


最后,经济学评价需要从多种途径获得的证据,如从临床试验中获得效果的证据,从队列研究获得不良反应的证据,从现况研究获得费用的数据。


但是,不是每个研究都会或需要针对研究问题选择最优的研究设计。另一个决定研究设计选择的因素是研究的阶段。一般而言,尤其是针对病因和治疗的研究,研究可分为以下几个阶段:产生假设,初步检验假设,进一步检验假设,最后认定假设(图12)。

以吸烟和肺癌的关系研究为例,最初是通过临床经验或病例系列产生吸烟可能引起肺癌的假设,然后通过病例对照研究初步检验假设,进而开展队列研究进一步验证假设,最后总结所有有关的研究做出结论。

图12 病因研究的阶段和研究设计的选择


关于新药的临床验证,一般分为四个阶段,即常说的I-IV期临床试验。研究的问题包括毒副作用和效果两个方面,毒副作用是每个研究阶段都需要关注的,对二者的研究也需要循序渐进,研究设计的选择更为灵活和复杂。

I期临床试验是一个新药第一次在人身上的测试,需十分谨慎,评估的不是疗效而是急性毒性作用,也包括对药物代谢动力学的考察。研究往往是在仔细挑选的健康人中进行的,本质是病例系列,没有对照组。

如果一个药物通过了I期试验,没有明显的急性毒性作用,可进入II期试验,对疗效进行初步评估。取决于评估的进展阶段,可选的研究设计很多,如病例系列、前后对照试验、平行对照试验和小型随机对照试验等。

III期试验是对疗效最严格的验证,须使用对病人重要的终末结局,也是对常见毒副作用的评估,需要使用样本量足够大的随机对照盲法试验。IV期试验是药物上市后的研究,主要是对严重罕见慢性不良反应的监察,主要使用的是病例对照研究和队列研究。有关细节可参见表6的内容。

表6  医学干预措施在人群中的测试:测试阶段和测试目的与服务条件和研究设计的选择

另外,还有其他原因使得研究者不会选择针对研究问题最优的研究设计。例如,硕士研究生的研究课题,主要目的一般不在于可靠地回答研究问题,更多的考虑是对学生熟悉研究方法和程序的训练和可用于课题的技术、人力、物力、时间等资源问题。这时,即使是研究病因,即使已经存在很多高质量的队列研究,一个硕士生课题可能还是会选择病例对照研究。

因此,值得再次强调的是,对于同一临床问题,文献中会存在各种类型的研究,循证医学实践者应能够辨别一类研究问题的最优设计,基于现有最好的证据进行决策。

还值得一提的是,常规收集的大数据给临床研究提供了新的机会,但是基于常规收集的数据只能是观察性的,可以用来研究病因、诊断、转归、药物不良反应、初步验证疗效等。常规数据的另一个重要用途是产生新的研究假设。常规数据信息存在很多问题,如测量不准确、不一致以及病人的失访,使得基于常规数据的研究可信度较低。因此,有关治疗效果的研究,除非效果极其明显,否则基于常规数据的观察性研究不能取代随机对照试验对疗效的验证。

另外,目前医院收集的数据都是病人,不能代表一个地区或人群的所有人口,因此不适用于发病、患病和死亡率(病死率除外)的研究。虽然体检收集的数据代表的多是健康人,但是由于参与体检的人群是高度选择的人群,也不适用于发病、患病和死亡率的研究。

有关研究目的和研究设计的匹配和选择,尤其是有关观察性研究和实验性研究的区别,以及有关医学干预的研究,请参见文末“往期推荐”里第2篇和第3篇的内容:
  • 观察与实验,效力与效果
  • 再论观察与实验: 大数据现实世界研究不能取代随机对照试验

(三)研究对象

研究对象系指依据研究的纳入标准最终纳入研究的观察对象。流行病学研究的对象是作为一个整体的人,不是动物、分子和细胞。研究对象对外推人群的代表性是流行病学研究选择研究对象的总体原则。但是在早期探索阶段,一般会选择最可能揭示出“阳性”结果的人群,而在后期验证阶段应该选择有代表性的人群。

什么是有代表性的人群?以药物评估为例,一种药物一般都有明确的适用人群,这个适用人群就是研究人群应该代表的人群,一般叫做目标人群,如全世界所有成年原发高血压病人。由于研究目标人群(也称总体人群)是不可行的,也是不必要的,在一个有代表性的人群中进行研究就可以获得准确可靠的结果。犹如想知道一桶酒的滋味,不需要把整桶酒都喝了,尝几口就可以了。研究也是如此。

理论上讲,研究样本应该从目标人群中抽取。但是,有时目标人群很抽象,如上述全世界所有成年原发高血压病人,任何研究都不可能从这样一个人群中直接抽样。一般的做法是依据目标人群的特征选择一个有代表性的抽样人群,如香港沙田区初级保健门诊中所有的高血压病人。然后再从抽样人群征募病人进行研究,如2015年6月新诊断的高血压病人,再剔除不愿参加研究的病人后,就获得了最后真正纳入研究的病人(图13)。有些研究的抽样可能更复杂,每一步选样都会影响研究人群对目标人群的代表性。

图13 目标人群、抽样人群、研究人群和分析人群的关系

对患病率和发病率的调查,研究人群必须充分代表总体人群。譬如,估计北京市成年人冠心病的患病率,从北京大学学生中抽取一部分学生进行调查显然是不合理的,因为他们比北京市成年人群年轻得多、健康得多,因此冠心病患病率也低得多,其结果会远远低估北京成年人冠心病的患病情况。

这里,北京所有的成年人构成了该研究的目标人群,北京大学的学生为抽样人群,具体抽入并参加调查的为研究人群。选择北京大学的学生为抽样人群出了问题,因此结果是不可靠的。一般来讲,在每一级选择中,随机抽样是获得有代表性人群的可靠方法。

对于病因和疗效的研究,研究对象对总体人群的代表性也十分重要。但是,无论是病例系列还是病例对照研究,无论是队列研究还是随机对照试验,多是利用方便的人群,一般不会采取随机抽样的方法。这样的做法是基于一个重要的假设:病因和疾病的关系以及治疗和效果的关系具有一定的生物学普遍性。

例如,胰岛素可以降低血糖,基本在所有的人群都可以;又如,吸烟可以引起肺癌,在各种人群都可以。因此,研究人群的代表性就不那么重要了。相比,疾病患病率和发病率在不同人群千差万别,代表性就显得十分重要。(关于研究对象选择的更多的讨论,请参见文末“往期推荐”里第4篇文章:惊鸿一瞥:科研对象的现实之美。

在队列研究和临床试验里,需要追踪随访,有时随访时间可以长达几年甚至几十年。在随访过程中很多人会失访,使得在关键结局指标上缺乏信息,导致最后纳入数据分析的人数远远小于研究开始时的人数。因此,失访也是“选择”研究对象程序的一个部分,是研究开始以后研究对象的自我选择,在常规临床数据里尤其突出。

(四)样本量

样本量就是实际纳入研究对象的总人数。研究样本量的大小十分重要。简单地说,如想估计某大学男生的平均身高,如果只找一个人测量,碰巧他的身高1.9米,离平均值很远;如果随机找10个人测量,他们的平均身高则会比较接近真实;如果测量100人,结果会十分接近真实。

又如,冠心病在高血压人群中的5年发病率为10%,如欲估计该发病率,观察1人5年,发病率不是100%,就是0%,而且很可能是0%;如观察10个人,可能还是一个病例都没出现,也可能会出现两三个病例。如果观察1000人,估计的发病率会在8-12%(即95%可信区间,下同)之间,已经很接近10%了。如果是1万人,发病率会在9.4-10.6%之间;如果是100万人,会在9.98-10.02%之间。

对于很多决策来说,1000-10000人提供的结果就足够好了,100万人的研究提供了决策不必要的精确的信息,是浪费资源。另一方面,样本量过大可能会引起其他问题。比如,由于收集资料的任务过重,可能不得不采取简单快速但不够准确的测量方法,得不偿失。

以简单的两组比较的临床试验为例,估计样本量需要知道两组发病率和统计学的第I类和第II类错误的概率。第I类和第II类错误是人为规定的,但是有关两组的发病率,只能根据间接相关的研究结果来“猜测”,如果准确地知道,就不需要研究了。因此,一个基于“猜测”计划的样本量最好也不过“大概齐”,最坏可能就差之千里了。但是,关于样本量有一点是肯定的,那就是一项研究需要的样本量越大,它所研究的真实效应(如疗效)就越小。

如果一个药物可以把晚期肝癌病人的生命延长10年,三五例病人就够了,对照都不需要,因为成千上万病人的临床观察显示几乎没有晚期肝癌病人可以活过10年。青霉素治疗大叶性肺炎,几十例病人也许就足够。但是,要证明一个抗高血压药物是否可以预防心血管事件,一般需要几千人。上述三种治疗之间,第一种肯定是最有效的。因此,在评估大样本多中心的随机临床试验对临床实践的意义时,不能忽略其显示的疗效的大小而只盯在样本量上。

如果说研究设计是降低偏倚的主要措施,样本量则是降低随机误差的主要措施。如图14所示,即使研究没有任何偏倚,观察值还是不可能与真实值完全重叠。由于随机误差的存在,观察值不是一个固定的值,而是一个因样本量不同围绕一个中心值左右摆动的值(如图中的小圆圈)。

摆动的幅度与样本量成反比:样本量越大,研究结果围绕中心值摆动的平均幅度就越小,估计值的稳定性就越高,反之则摆动幅度越大,稳定性越低。我们不知道一个具体研究的估计值会落在中心值哪边,但是可以肯定的是:随着样本量增加,估计值平均会更接近中心值。

随机误差不同于偏倚,随机误差的方向是不可预测的,而偏倚的方向在产生程序明确时是可以确定的。增加样本量可以增加估计值的稳定性,减少偏倚可以使这个稳定的估计更接近真实。但是,降低偏倚不会影响随机误差,反之亦然,二者是相互独立的,必须采用各自不同的控制误差的方法。

图14 偏倚、抽样误差与真实性的关系

(五)研究变量

流行病学研究必须通过收集数据才能回答研究问题,流行病学数据是在研究对象中收集的有关研究变量(即研究对象特征)的信息。有关某一个研究对象某一个变量的信息就是一个数据点,每一个数据点都有两个基本属性和一个赋值:两个属性分别指研究对象和研究变量,赋值是对这个变量的测量值,如第12个研究对象的性别(研究变量)是男性(变量赋值)。一项研究的所有数据点的集合(即有关所有研究对象所有研究变量的赋值)就构成了该研究所有的数据。

一个典型的队列研究的变量主要有五类:一)暴露,二)结局,三)混杂因子和(或)效应修饰因子,四)确认研究对象的变量(如身份证号码、病历号、地址、姓名、电话,主要为联系病人使用),五)其他,如调整偏倚需要的变量(如依从性、失访)。其中暴露和结局是最关键的信息。

例如,在一个吸烟和肺癌的队列研究中,吸烟就是暴露变量,肺癌是结局变量,暴露和结局以外的该病的病因和危险因素如种族、职业、性别、年龄等都可能成为潜在的混杂因子和效应修饰因子。又如,在评估抗高血压药物预防心血管事件的随机对照试验中,抗高血压药物是暴露变量,心血管事件是结局变量,其他预防措施以及心血管病的其他危险因素是潜在的混杂因子和效应修饰因子。

有时,变量并不是直接明了可测的事物。以危险因素为例,什么是吸烟?一天吸多少支才算吸烟?一年吸多少天才算吸烟?一生吸多少年才算吸烟?卷烟、雪茄、烟斗是等同的烟草吗?深吸和浅吸者是等同的吸烟者吗?一般认为,每天吸一支烟超过一年就算吸烟。但这不过是一个方便的规定,否则我们无法采集信息。因此,在定义变量时,尤其暴露和结局,涉及很多人为的主观的规定,须仔细斟酌。对变量的定义一般还包括测量方法,例如对滥用毒品的确定,是通过问卷,还是对体液里毒品的测量?又如对癌症的确诊是基于超声、CT还是病理?

结局指标的选择和测量也十分重要。例如在评估干预效果时,结局指标直接影响研究的设计和结果的意义。例如,在评估抗血压药物时,可用的结局指标包括症状(头痛、头晕、乏力)、血压、心血管事件(如心肌梗塞和脑卒中)以及死亡等。症状是次要的结局,死亡是重要的结局。血压是中间结局,心血管事件是终末结局。

如果选择血压为主要结局指标,需要的样本量很小,观察几个月就够了,如几百人观察半年。但是这样的研究不能直接证明降低心血管事件的作用。如果使用心血管事件作为主要结局指标,可以同时观察对症状和血压的影响,但是需要的样本量和观察时间可能要10倍以上,如几千人观察5年。

由于中间结局的改善不必然引起终末结局的改善,因此中间结局的研究不能替代终末结局的研究。一般来讲,早期评估多使用中间替代结局,最终验证需使用重要终末结局。重要终末结局一般是病人可以直接感受到或充分理解的重要临床结局,如疼痛、失明、失聪、残障和死亡,绝大部分仪器测量的指标则属于中间替代结局。

对变量测量的一般原则是:准确、精确、统一。准确就是测量了要测量的东西,精确就是每次测量的结果是一致的,统一就是要求对不同比较组的测量的标准、程序、方法等是完全相同的。试想,用问卷的方式测量人们是否使用了毒品,显然是不可靠的。

测量都存在随机误差,即每次测量同一个人的同一个变量(比如血压)的结果不会一致,这会导致低估比较组间的差别。一个常用的解决办法是,测量2-3次,取其平均值。另外,如果在比较组间使用不同的测量方法,也会扭曲组间的差别。即使用的是同一测量方法,如果测量标准、频度、人员等在两组不同,也会引起偏倚。

(六)研究结果

流行病学研究多是定量的,即研究结果是定量表达的。因此,数据分析的核心是对有关指标的估计,如发病率和疗效。以随机对照试验为例,如果治疗组的死亡率是10%,无治疗的安慰对照组的死亡率是30%,两组死亡率之间的差别才反映治疗特有的作用。这个差别可以用很多指标来表达,这些指标又可分为绝对效果指标和相对效果指标。前者如两组死亡率之差和需治人数(即两组率差值的倒数),后者如相对危险度、相对危险减少百分数、比值比等。他们的计算公式见表7,它们的估计值分别为:率差=-20.00%,需治人数=5,相对危险度=0.3333,相对危险减少百分数=66.67%,比值比=0.4286。

表7 随机对照试验数据总结表和效应指标估计公式


由于相对效果指标在不同情况下容易保持一致,因此多数临床试验会使用相对指标。但是,决策需要参考绝对效果,可以利用研究显示的相对效果和自己病人不治疗时的风险进行转换(详见文末参考书籍《循证医学基础》(第二版)第4章“测量疗效的结局指标”一节)。

由于随机误差的存在,在提供指标的点估计的同时,还需提供这个点估计的可信区间,一般用95%可信区间表达。可信区间越窄,说明结果的稳定性越高。另外,由于统计学显著性检验是过去常用的方法,现在很多研究还会在指标点估计及其可信区间之外,提供相应的P值。其实,这个P值是不必要的,因为可信区间可以给出同样甚至更多的信息。

在观察性研究里,如病例对照研究和队列研究,数据分析的另一个重要任务是控制可能的混杂因素。分层分析和标化比较是没有计算机时代控制混杂常用的方法,也是展示控制混杂存在及其控制原理的常用方法,但是当需要控制的混杂因素很多时,它们的作用往往有限。因此,在计算机普及的今天,绝大多数数据分析依靠的是可以同时有效控制多个混杂因子的多元回归分析。因为多数研究的因变量是二分变量,所以多数分析使用的模型是Logistic回归模型。

多元回归分析混杂控制的信度取决于三个因素:一、回归方程是否纳入了所有重要的混杂因素,二、利用回归分析判断混杂因素的方法是否正确(即应根据混杂因素对主效应的影响来判断,而不是根据混杂因素与结局关系的统计学显著性来判断,详见文末“往期推荐”第5篇“流行病学数据分析基础(3/6):识别和控制混杂”的内容),三、混杂因素的测量是否准确可靠。随机对照试验则无需控制混杂,因为随机分组可以完全平衡所有已知和未知的混杂因子。

如果分析将研究对象先分为两个亚组(或多组),然后在亚组内分别估计暴露的效应,如果发现亚组间效应大小不同,且具有统计学显著意义,说明用来分组的因素可能是一个可以修饰暴露与结局关系的效应修饰因素。效应修饰作用又叫交互作用,指一个因素可以增加或降低另一个因素的作用的作用,或者二者一起产生新的效应的现象。

例如,吉非替尼在EGFR突变型肺癌病人中有效,在EGFR野生型病人中无效,说明EGFR突变可以修饰吉非替尼的治疗效果;又如,胺碘酮可增加地高辛的毒性,饮酒可以增加慢性乙型肝炎病毒感染病人发生肝癌的机会;中药的十八反说的也是药物间的交互作用。就药物来说,交互作用对如何用药十分重要。因此,当交互作用存在时,应分别报告各个亚组的结果。

但是,一个具体研究中对效应修饰作用的分析可能是不可靠的,尤其是当总体无效但个别亚组显示有效时,应特别引起注意,因为多数研究的样本量只足够证明总体效果的存在,亚组里的效果很可能是机遇造成的假象,需要其他研究重复证明。

(关于流行病学数据分析更多的内容,请参考文末“往期推荐”里的第7篇文章“临床研究讲座:流行病学数据分析基础(6/6):如何利用临床常规数据进行研究?”,及其之前各集的内容。)

(本文是全文3集的第2集,未完待续)

原文出处:唐金陵,韩笑然. 第二章: 流行病学:产生证据的科学方法论. 见: 唐金陵,Paul Glasziou 主编. 《循证医学基础》(第二版) 北京;北京大学医学出版社: 2016


唐金陵,广州市妇女儿童医疗中心临床研究总监、《英国医学杂志》高级临床研究编辑、香港中文大学流行病学荣休教授

编辑:唐惠、邬德华

1)临床研究方法基础(1/3): 研究设计类型及其比较


2)观察与实验,效力与效果


3)再论观察与实验: 大数据现实世界研究不能取代随机对照试验


4)惊鸿一瞥:科研对象的现实之美‍


5)临床研究讲座:流行病学数据分析基础(3/6):识别和控制混杂


6)系统综述中的统计分析(5/5):Meta分析软件与分析实例


7)临床研究讲座:流行病学数据分析基础(6/6):如何利用临床常规数据进行研究?


8)唐金陵教授《临床研究方法学文章汇集》 | 2019-11-27




长按上方二维码关注我们


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存