为什么需要随机对照双盲
我们经常被魔术的障眼法所欺骗,认为那些表演是真的,即使名人、科学家也在所难免。如著名科学家竟至于用DX保证特异功能是真的,著名商业巨头也难免相信空盘变蛇...
我相信他们的相信是发自内心的,因为他们坚信他们的眼见为实。
科学家、名人和普通人一样,也会被魔术所骗。
与魔术神似,疗效也会欺骗你的眼睛。不仅欺骗普通人,也会欺骗医生;不仅欺骗中医,也会欺骗西医;不仅欺骗小医生,也会欺骗大院士......所有人概莫能免。
因为人性最难以克服的弱点之一,就是相信眼见为实。
但我们必须克服这一弱点才能发现真相。
“超人”张宝胜曾经以其隔瓶取物、透视识字、嚼烂名片复原等“特异功能”名噪一时,欺骗了许多政要人物和科学家。但何祚庥等采取控制道具(特制瓶子、特别标识)、邀请专业魔术师现场监控等手段,他的表演立刻就现出了原形。
所以,不能光用眼睛看,还要严格监控表演过程,才会发现真相。
与此类似,对疗效的评价也必须设计一种严格的控制机制,因为疗效可能比魔术更具有欺骗性;而这种欺骗性的危害显然更大,它不是娱乐,而是至死。
至少有八种障眼法会严重影响我们对疗效的评价:假治效果、再解释效应、观察者偏见、选择偏见、疾病的自然过程、趋平均、研究效应、统计幻觉。
假治效果就是安慰剂效应,并没有真的治疗,却取得了和真治疗似乎一样的效果。曾经有一个反复头痛住院的年轻病人,各种检查均没有问题,医生护士不胜其烦,后来,每到他叫头痛时,我就给他吃两片维生素C,他以为是特效药,吃了头还真的就不痛了。如果告诉他是维生素C,我想不可能有这效果。这是典型的假治效果,医生有意利用假治来达到真治的效果。
实际上,假治效果的普遍程度大大超出了专业医生的想象,以至于他们不能接受很多时候他们的真治其实就等于假治。已经有很多的研究证明了这一点。
比如:腕管综合征用静磁疗法的“疗效”和假磁治疗是一样的;腰背疼痛行脊椎指压疗法的疗效不优于单纯健康教育;慢性疼痛针灸治疗和假针灸疗效相当;骨性关节炎的关节镜手术和假关节镜手术效果一样,等等。无论病人还是医生,如果对某种医术怀有虔诚的信仰,则这种真相就不仅是辣眼,而是意味着锥心般的痛苦,很难接受。
再解释效应实际上是假治效果的一种特殊情况。我们已经知道,假治是可以产生真的症状改善的,比如,关节镜插进关节腔,却不进行任何清理修复处理(即假关节镜手术),也可以让患者感到真实的疼痛缓解。而有一些假治其实并没有改善症状,却会影响患者对症状的再评价和再解释。比如慢性咳嗽喝止咳糖浆,病人会感觉咳嗽确实好些了;但实际上,如果客观观察记录的话,他的咳嗽频率和程度并没有改变,他的“好些”其实是他自己对症状的一种“再解释”而已,说白了,就是一种无意的自欺欺人。所以,假治即使没有取得症状改善,也可能通过再解释效应来获得“效果”。
观察者偏见更多是来自医生。设计两组同质病人,一组真治,一组假治。如果不让医生知道分组情况,医生会评价出两组疗效相当;如果让医生知道分组情况,则会出现神奇的变化,真治组出现了显著的“疗效”。这种偏见是不自觉的,也罕有医生会承认他们会有这种偏见。比如,张煜医生认为他在临床上看到的许多中药“疗效”是显而易见的,很可能就出自“观察者偏见”;某院士认为某个牌子的板蓝根更有效,也可能是“观察者偏见”(如果不是带货的话);更多的某些药物的参与率和有效率也可能仅仅是观察者偏见。只有把观察者的眼睛蒙起来(即盲法),才会发现疗效的真相,这就是我说的蒙上眼睛学循证原因所在。
选择偏见很好理解,为了得到更好的结果,有意或无意地选择了观察对象。有意的,如很多学术造假,把不好的结果去掉,P掉,当然会得出令观察者满意的效果来。无意的也有很多,比如,很多人(可能是无意的)会对比非典时期广州中医药附一院和呼吸研究所的死亡率,前者零死亡,似乎要“有效”得多。但是,二者病人的严重程度分布是不可比的,研究所专收重症病人,能和主要收普通病人的比吗?
疾病的自然过程也是疗效评价的常见误区。有很多疾病即使不给予任何治疗也会自愈或自然缓解的,这本是一个自然过程,却常常被贪天之功为己有,这也是很多骗子也可以混得风生水起的天赐条件。为什么治疗感冒、面瘫的药物和方法如此之多?因为这些病都可以自然缓解和痊愈,骗子可以轻易邀功。
趋平均是更为诡诈的疾病自然过程。有很多或者大部分慢性病,都是处于波浪状的好坏交替中,而不是进行性恶化趋势。那么,在其最坏时用药就会得到神奇的疗效。有一些慢性疼痛如各种关节炎颈椎腰椎病,就有这种波浪起伏的特点,医生如果要利用它简直太容易了,选择在症状严重时用药,效果一定会神奇;症状缓解时就让给别的医生,一定效果特差,病人还是会回来找你。比如痛风吧,病人疼痛时的治疗是最简单的,秋水仙碱、抗炎药、激素三把斧头是一定有效的,即使不用药,其疼痛也会自行缓解,痛风的痛本就“来去如风”;但痛风最关键的治疗其实是不痛时对各种危险因素的控制,从而避免慢性肾病等严重结局。病人不明白这个道理,会觉得治急性期的医生立竿见影,是神医;而治慢性期的医生看不出效果,是庸医。所以,那些用偏方以及头孢之类完全无效药物治痛风的骗子或庸医也会大行其道,因为趋平均的规律会帮他们掩盖真相。
研究效应也非常常见,更常被骗子利用。比如气功针灸等的减肥,当你参加这样的活动(研究),也会出现“效果”。因为这些研究(活动)往往也同时进行饮食控制、增加运动、规律活动,这些本就有减肥的效果,功劳最后被算在气功针灸上面。朋友圈曾经见过一鼻窦炎(?)病人参加一个新药临床试验,自觉新药特别有效,揭盲后发现她用的其实是安慰剂(面粉)。这也是典型的研究效应,“参加研究”这件事本身就是一个很好的暗示。
统计幻觉。当你忽略所有背后复杂因素,只关注统计数据时,就会产生统计幻觉,这种幻觉无处不在。比如,不同国家某病死亡率的对比,你如果不了解它们不同的死亡统计方法、疾病死亡与总体死亡的分布等等,就会得出一个幻觉式的结论。曾经有一个关于铀矿工人寿命的统计数据显示,他们与普通人的寿命相当。但实际真相是,铀矿工人平均较普通人更强壮,本应该得到更长的寿命,被减少了寿命才降到普通人的平均水平。新药(比如治疗新冠的各种中西药)疗效评价中的统计幻觉更是不计其数,此处省略一万字。
难怪马克·吐温这样说统计学:“世界上有三种谎言:谎言、该死的谎言和统计数据(There are three kinds of lies:lies,damned lies,and statistics)”。
其实,并不是统计数据撒谎,而是阴谋或阴谋论者利用或误解了统计。任何数据,只要你愿意去挖掘,总是能挖到对你有用的东西,尽管它可能毫无用处。骗子们深刻地懂得这个道理。
克服以上八大疗效障眼法,唯一的武器就是随机对照双盲。
随机才能克服选择偏见。你不能把重症和轻症进行对比,不能把男人和女人比,不能把老人和年轻人比,不能把穷人和富人比。必须对观察对象进行随机分组,使得组间除了干预因素外其他的差异是均质可比的。观察样本越大,随机化后的组间差异就越小,10个病人不管怎样随机化,组间差异可能都无法完全克服,但1万个病人就不存在这个问题。这也是大样本的意义所在,所以临床试验从一期到三期,样本需要不断增大。
对照可以克服假治效果、疾病的自然过程、趋平均、统计幻觉。不怕不识货,就怕货比货。在生活中,人们很容易理解对照的意义,但只要遇到药物就会犯迷糊。一个药物参与了治疗某病,即使病好了,也不能判断该药有效。我经常举的一个简单例子,感冒,真的可以列出一百种号称“有效”的治疗方法,比如,无数种抗生素、无数种抗病毒药物、无数种中药注射剂、无数种中成药和偏方、汤剂,都有效;而我每次感冒,换用一块新肥皂,也有效。只要一对照,所有这些疗效都会显出原形---无效,或者称之为假治效果。就拿我的新肥皂疗法为例吧,不妨把病人分两组,一组感冒后换新肥皂,一组仍用旧肥皂,看看两组的病程缩短时间有什么区别,结果一定是没有区别。但老中医我是不会去做这个对照试验的,嘿嘿。
双盲(严格讲是盲法,因为还有单盲,三盲)则可以克服再解释效应、观察者偏见、研究效应。很多人认为有些疗法无法做到双盲,比如针灸、手术等。其实,只要开动脑筋,伦理学允许,几乎所有的疗法都可以设计成双盲。针灸可以设计出假针灸使病人变盲;另一端的盲并不是指操作者(针灸师),而是指评价者,只要评价者不知道真假针灸分组,就可以避免观察者偏见。关节镜手术可以设计出假手术,心血管支架手术、癌症放化疗等一样可以,只是,这需要伦理学的允许。
随机、对照、双盲联合起来,就成为无坚不克的疗效照妖镜。
除非是特别特别明显的真正立竿见影的疗效,绝大多数的药物和疗法都必须经这个照妖镜照一照,没有哪个是应该得到豁免的。
妖(药)一旦获得豁免,一定会危害人间。照出妖的原形来,就是循证医学的大慈悲之所在。