如何解读临床研究报告(4/4)：评估结果的真实性

Original 唐金陵临床研究与循证医学

2024-11-28

目录一、医学文献评估概述二、确定临床实践问题三、检索有关研究四、文献评估的内容五、评估研究的结果六、评估结果的真实性1）真实性和研究的质量2）决定研究质量的因素3）评价研究质量的方法4）评价真实性的困难七、评估结果的外推性1）病人特征2）医疗条件八、依据证据进行决策九、本章概要

导言：医学生在大学阶段学习的东西10年内一半可能会被证明是错的，因此从医学研究中学习是一个优秀的医生能不断更新知识、跟上医学进步的必备修炼；临床研究首先需要提出研究问题，因此掌握医学发展前沿也是一个好的研究者做好研究的必备修炼。本文讲的正是如何从临床研究报告中学习的技巧。

六、评估结果的真实性

1）真实性和研究的质量

只有真实可信的结果才能作为决策依据的基础。这里的真实性指内部真实性 (internal validity) 或可信性（trustworthiness）, 是对一项研究的结果或结论反映真实情况的程度的衡量或判断。研究的目的在于求得真实，真实和观察到的结果之间的差别叫做偏倚或系统误差。一项研究的偏倚与其结果的内部真实性成反比。

决定研究结果内部真实性的因素是研究的质量，即一项研究的设计类型和方法学质量。研究质量是对研究偏倚控制程度的总体衡量。因此，研究的质量决定研究结果的可信度，质量越高，偏倚就越小，结果的可信度就越高，结论正确的可能性就越高。决策不能基于不可信的信息，基于可信度较低的信息进行决策时应格外谨慎。如下图所示。

证据真实性的高低（犹如绳索的粗细）与决策需要的谨慎程度

2）决定研究质量的因素

研究的质量由研究的偏倚控制措施决定。研究设计是一项研究控制偏倚最基本的方法，一项研究的质量首先取决于研究设计的种类。比如，评价疗效时，从设计上讲，随机对照试验的质量一般应高于非随机的对照试验，后者又高于病例对照研究。

其次，研究的质量进而由该类研究特有的偏倚控制措施决定，比如临床试验可使用随机分组、分组隐匿、盲法、提高依从、维持原随机分组分析等偏倚控制措施。但一项研究不一定采取所有这些措施，使用的越多，偏倚控制就越好，质量就越高。

最后，研究的质量还取决于流行病学研究的一般偏倚控制措施，如收集资料的准确性、样本的代表性、减少失访、足够的观察时间等。

另外，样本量决定结果估计的精确性，决定可信区间的宽窄，虽然影响的也是结果的不确定性，但一般认为与研究质量无关。

3）评价研究质量的方法

评价一项研究的质量就是对该研究设计和偏倚控制措施进行分析和评价。一个简单、快速、粗略的评价方法是根据研究设计的类型将证据进行分级。下图是对疗效证据的分级，不同研究提供的证据的质量自上而下逐渐递减，是循证实践者重要的参考工具。

关于干预效果研究的证据分级

在研究设计的基础上，更详细的评价方法允许对同一类研究，根据其偏倚控制措施的多少和严谨程度，进行进一步的质量划分。比如，关于临床试验的分级，可根据研究是否使用了随机分组、分组隐匿、盲法、维持原随机分组等措施，以及这些措施的实施的适当程度，可将临床试验的质量进一步分为0～5级或0～10级，0级最低，5级或10级最高。

对证据分级的方式有很多，国际GRADE工作组综合了各种分级方法的优点，制定了一个统一的分级方式。有关GRADE的工作及其发表物，请参见GRADE工作组的网站：

http://www.gradeworkinggroup.org

目前研究证据分级的工作主要集中在疗效研究的证据。关于诊断和其他临床问题研究的质量分级尚在初级探索阶段，可留意GRADE工作组新的发表物。

将证据更加详细地分级理论上是可行的，但详细划分证据的使用价值有待研究。因为医学决策的最后结果只有两种可能：做，还是不做。将证据分得很细是否会帮助医生和病人作出更好的行动选择仍是一个未知数，如何将可划分为十几级或几十级的证据和临床决策联系起来，尚没有明确可行的方法。

因此，近些年来，似乎有更加简化证据分级的趋势，比如，GRADE工作组建议综合所有的信息，将有关疗效的证据分为四级：

高质量：未来的研究不大可能会改变目前我们对疗效估计的信心。
中等质量：未来研究有可能会改变目前我们对疗效估计的信心，并可能改变疗效的估计。
低质量：未来研究很有可能会改变目前我们对疗效估计的信心，并很可能改变疗效的估计。
很低质量：目前疗效的估计很不可靠。

另外，医生经常需对同一疾病不同治疗的效果进行比较和选择。比如，随机对照实验的系统综述显示，与安慰治疗比较，甲药可以降低某临床事件的效果RRR为0.5，乙药可以降低同一事件的效果为0.7，显示甲药的效果大于乙药。

虽然关于两种药物的证据都来自多个高质量的随机安慰对照实验，但是因为使用甲药的病人和使用乙药的病人来自不同的研究，他们的比较不是随机形成的，而且不同研究的环境和条件也不同，因此证据的质量低于随机对照试验，最多只等同于没有控制混杂的对照研究的证据。更好的证据应来自直接比较两种药物的随机对照试验。

4）评价真实性的困难

对方法学质量的判断的本质是对结果真实性的判断。上述讨论的内容多局限于对单一研究质量的评价，当针对同一问题同时存在多个研究时，对这些研究的总体真实性的评价更加复杂。

20世纪60年代，希尔（Austin Bradford Hill）爵士提出了疾病与病因因果关系推论的九个准则，是循证医学以前人们用来进行医学因果关系推论的主要依据。系统综述和Meta分析提供了新的思路，尤其是在原始研究结果真实性、精确性和一致性方面的评估提出了一套统一的操作方法。

其实，一项原始研究或系统综述的设计和分析要素里都包含了希尔的主要准则，如时间顺序、关联强度、剂量效应关系、实验证据、一致性等。然而，在什么情况下，即当证据质量达到什么水平，当证据累积到什么时候，我们就可以肯定地说结果是真实的？系统综述也没有明确的答案，也许我们永远也不会得到确切的答案。

因此，希尔自己也说，我提出的九个准则没有一项可以对因果关系的存在与否提出确定无疑的证据。因果关系最多不过是一个尝试性的主观上的推论。任何科学工作都不是完美无缺的，所有科学证据都可能被颠覆或修正，科学推论永远都带着不确定性，我们永远无法确切地知道一项研究的结果的真实性，但是，证据的不确定性并不赋予我们可以无视现有证据的权利，不能作为延迟必要行动的理由和借口。

七、评估结果的外推性

所有疗效的估计都是在特定条件下的结果，换一个条件或用于不同病人，治疗是否还会有效？疗效的大小是否会一样？这是有关研究结果外推性的问题。从医学实践意义上讲，外推性（generalizibility）指研究结果是否可以在不同人群和环境中得到重复和再现的可能性。外推性又叫外部真实性 (external validity)，与适用性（applicability）的含义十分接近。

外推性有两个层面的含意，一是定性外推，一是定量外推。以治疗为例，定性外推只关心在实际病人或医疗环境下治疗是否有效，并不关心效果的大小；定量外推关心的是研究显示的效果的大小是否可以在实际病人和医疗环境中得以重复。定量外推包含了定性外推，但定性外推性并不能保证研究显示的结果的大小可以在现实中如实地得以实现。

外推性首先由结果的内部真实性决定，不真实的信息一定不能外推到其他情况，但真实的结果未必一定可以外推到其他情况。决定真实结果外推性的因素有两个，一是研究中的条件是否可以在实际医疗环境里得到复制，二是治疗的效果是否存在效应修正因素或交互作用，即效果在不同人群存在真实的差异。因此，评估外推性的重点在于比较实际病人的特征和医疗条件与研究中相似的程度。

1）病人特征

病人的特征包括病人的性别、年龄、教育程度、治疗史、病情、并发症等可能影响治疗效果的因素，还包括依从性。严格来讲，研究显示的效果可能仅适用于类似的病人，不能外推到其他不同的病人。实际病人与研究人群特征的相似程度，是用来判断证据可否外推到实际病人的条件之一，二者越接近，结果的外推性就越高。

然而，病人的特征是多方面的，实际病人与研究的病人总会存在不同的地方，而且我们往往难以回答哪些因素与疗效相关，哪些是无关的，因此依据病人特征判断证据的外推性是一件十分困难的事情，在没有亚组分析的结果时，经常只能依靠临床经验进行判断。比如，种族是病人的一个特征，是否西方人群的研究结果都不能用于中国病人呢？显然不是的。比如，年龄是病人的一个特征，是否所有在成年人的研究结果都不能用于儿童呢？显然也不是。

当异质性存在时，决策者应利用研究的亚组分析或Meta回归的结果，更准确地判断自己的病人可能从治疗中获益的可能性。具体来讲，就是首先比较自己的病人与哪个亚组的病人更接近，那个亚组的结果就更适用于你的病人。

2）医疗条件

医疗条件包括很多因素，如接诊速度、诊断仪器、诊断标准、治疗的及时性、医护理人员的素质等。这些都是治疗效果的直接决定因素，因此，比较实际和研究中的医疗条件，是判断研究结果是否可以在当地病人中得到实现的重要内容。

例如，阿司匹林可以用于治疗缺血性脑卒中，但是在诊断条件不足以区别出血性和缺血性脑卒中的情况下，可能会错误地给出血性卒中病人使用阿司匹林，治疗的总体效果必然会降低，副作用必然会升高。再如，在国内外一流医院具有丰富实践经验的医生中证明益处大于害处的治疗，在我国边远落后地区的医院里可能无效甚至害处大于益处，外科手术和其他程序复杂的治疗尤其如此。

另外，急性病的给药时间也十分重要，比如在我国现实条件下是否可以在急性心肌梗死发病后很短时间内给予有关治疗？如果不能，我们的病人将很难得到研究显示的效果。

值得注意的是，实际病人和医疗条件与研究中的可比性是高外推性的指征，但是二者之间的差异不是不可外推的必要条件。

八、依据证据进行决策

评价证据的最终目的在于做好决策。然而，证据只是决策的依据之一，就像砖瓦水泥不等于高楼大厦一样，证据本身也不是决策。在证据的基础上，决策还必须考虑现有资源的多寡，资源越多我们能够采取的干预措施就越多。但是，资源是有限的，即使富裕的西方国家，也没有支付所有现有医学干预措施的能力。

选择性地使用医学措施是现实的必然，决定人们选择取向的是人们的价值取向，人们总是把有限的资源用在那些他们认为最重要最有价值的事物上。事物价值的大小由人们的价值观决定。循证决策必须收集、评价和依据现有最好的证据，兼顾现有资源的多寡，尊重人们的价值取向。

证据包含有三个方面的内容，结果是什么，结果的可信性，结果的外推性。通过对治疗可改变的结局的意义的评估，通过对研究质量（即结果内部真实性）的评估，通过对结果外推性的分析，循证医学使证据变得明晰、具体和量化。同时，由于结局价值的相对性，由于结果真实性的不确定性，由于价值取向的相对性，循证医学同时也使我们明确地看到了医学决策的不确定性。

与过去医学实践模式不同的是，循证医学明确地承认证据的不确定性，因而承认决策的不确定性，而不是在对不确定性无知的情况下盲目地自信和果断。歌德说，不确定性是我们的命运，医学何尝不也是如此。承认和正确地对待医学实践的不确定性，减少工作中的盲目和武断，也许是病人真正的福音。

九、本章概要

进行循证实践，决策者必须首先能够形成决策问题，分析和确定问题的性质，并根据问题的特征，检索和评价相关的文献，最后依据有关的证据和现有资源的多寡，参酌病人的意见和取向，做出合乎病人需要的决定。

不同的临床问题由不同的PICOS组成，如何根据PICOS和研究设计对文献检索进行限制，是文献检索技术的核心。

文献评价包括评价结果的大小和意义、评价结果的可信性、评价结果的外推性三个方面。就治疗效果来说，结果的意义取决于治疗可向着有利方向改变的结局，以及改变这个结局的多少；结果的可信性取决于研究的质量，由研究设计和各种偏倚控制措施决定；研究显示的结果能否在实际病人中得到重现，首先取决于结果的可信性（即内部真实性），其次取决于实际病人和医疗条件与研究中的可比性，可比性越好，外推性就越高，但二者的差异不是否定外推性的必然条件。

对结果的意义、可信性和外推性的评价和判断，是主观的、带着不确定性。证据的主观性和不确定性进而决定了医学决策的主观性和不确定性，正确地认识和对待不确定性，将减少医学实践的盲目和武断，给病人带来福祉。

（全文完）

文章来源：唐金陵. 第四章: 医学文献评估概述. 见: 唐金陵, Paul Glasziou 主编. 《循证医学基础》（第二版）. 北京: 北京大学医学出版社, 2016.

唐金陵，中科院深圳理工大学讲席教授，北京大学循证医学中心主任，广州市妇女儿童医疗中心临床研究总监，英国医学杂志高级临床研究编辑，香港中文大学流行病学荣休教授.

编辑：唐惠、邬德华

如何解读临床研究报告 (1)：概述

如何解读临床研究报告 (2)：检索文献与解读内容

如何解读临床研究报告 (3)：解读研究的结果

唐金陵教授《流行病学和临床研究方法学文集》 | 2021-03-16

长按上方二维码关注我们

继续滑动看下一个

临床研究与循证医学

向上滑动看下一个

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

如何解读临床研究报告(4/4)：评估结果的真实性

六、评估结果的真实性

1）真实性和研究的质量

2）决定研究质量的因素

3）评价研究质量的方法

4）评价真实性的困难

七、评估结果的外推性

1）病人特征

2）医疗条件

八、依据证据进行决策

九、本章概要

您可能也对以下帖子感兴趣

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

生成图片，分享到微信朋友圈

如何解读临床研究报告(4/4)：评估结果的真实性

六、评估结果的真实性

1）真实性和研究的质量

2）决定研究质量的因素

3）评价研究质量的方法

4）评价真实性的困难

七、评估结果的外推性

1）病人特征

2）医疗条件

八、依据证据进行决策

九、 本章概要

您可能也对以下帖子感兴趣

九、本章概要