我的女儿,考了93分。
The following article is from 包包聊疫苗 Author 曦包包
今天这篇有点长。希望你有空读完。
不会很费脑子,只要看下去就好。
我有一个女儿,今年8岁。
某天放学后,她说:
“爸爸,今天我们语文考试了!”
我问:“考了多少分呀?”
她说:“考了93分!”
那么,她这次考试考得好不好呢?
如果你是我,你是怎么觉得的?
一、对照
仅凭一个“93分”,能说明她考得“好”还是“不好”吗?
能说明她学习是好还是不好吗?
不能。无法判断。
要评判一件事,或者得到一个结论,我们心里首先要有一个标准——要有一根“线”。
如果你觉得,满分为100分的考试里 ,超过90分就算“好”,那么93分当然算“好”。
但有人觉得,小学嘛,学得那么简单,考95分甚至98分以上才算“好”,那么93分就不算好。
其次,她要和以前的自己比。
如果她以前每次考试都是70分或者80分,这次能考93分,简直是进步巨大。
但如果以前她每次考试都接近100分,那么这次考了93分,可能需要好好“敲打敲打”。
最后,任何考试,尤其选拔性的考试,还要和别人比——看看公开的、外部的那根“分数线”。
如果其他孩子都考了98分、99分,甚至班级里、年级里有一大堆100分,那么她考的93分可能根本排不上号。
但如果试卷很难,其他孩子多数是80多分、70多分,上90分的都没几个,不及格的一大堆,那么93分可谓出类拔萃。
所有一切考试,包括高考,都是这样。
不论是自己心里的那根“线”,还是客观存在的“分数线”,本质上都是一个参照,一个用来比较、对比的参照线。
对比,也可以说是“对照”,十分重要。
没有对照,仅有一个孤零零的数字,不能说明任何问题。
再说一遍,没有对照,就不能说明任何问题,不能得出任何结论。
所以——
你生病了,你吃了某种药(暂且称之为A药)。吃了几天后,病好了。
可以说明吃A药能治这个病吗?不能。
因为,没有对照。
你无法确定,如果不吃这个A药,几天后(甚至更短时间)后,病会不会好。
你无法确定,如果每天吃的是1/2或者1/3的量,你的病会不会好。
你无法确定,如果你吃的是B药而不是A药,你的病会不会好。
你无法确认,别人,更多的人,生病了,吃了A药,会不会好。
那怎么办?
要有对照。
二、随机
好,要对照,那我们就来设置对照。
我们找来了1000个病人,分成两组:
一组吃A药(“吃药组”),一组不吃A药(“不吃药组”,即“对照组”)。
一段时间以后,看看这两组人里,病好了的人有多少。
过了一段时间,我们惊喜地发现:
“吃药组”:有300人病好了!
“不吃药组”:有100人病好了!
这总归可以说明吃A药“很有效”了吧?
真的吗?不一定哦。
很简单:刚才我们在分组的时候,有可能没有平均分。
而是——“吃药组”有800人,“不吃药组”有200人。
所以,“吃药组”的治愈率,是37.5%(300/800);“不吃药组”的,是50%(100/200),反而更高。
这样的话,你还认为A药有用吗?当然不能!
所以,即便有了对照,在分组的时候,也要尽可能均衡、平均。
这个“均衡”,不仅仅体现在数量上,更重要的,还要看这两组的具体情况。
如果“吃药组”都是年富力强、偶尔生病的青壮年人,平均年龄25岁,生个病,三五天就好,甚至——不吃药都会好;
而“不吃药组”都是本身体弱多病、免疫力差的中老年人,平均年龄65岁,吃了药,两三个星期也没好。
这样算出来的“治愈率”,即便“吃药组”更高(或者相反),也不能说明“A药有效,或者无效”。
所以,要证明一个药的“疗效”,不光要有对照,还要让这两组(或多组)人的性别、年龄、基础疾病、学历、经济收入……等因素,根据研究目的不同,尽可能确保一致,尽可能均衡、匹配。
毕竟,你不能为了证明一件衣服“好看”,就让“穿衣服组”都是窈窕淑女,而“不穿衣服组”都是抠脚大汉。
你不能为了证明一道菜“好吃”,就让“吃菜组”都是饿了三天的壮汉,而“不吃菜组”都是刚刚吃完自助餐、扶着墙出来的小姐姐。
这需要实现近乎完美的“随机”分组。
也就是——要确保每个人进入每个组的概率,是相同的,没有主观或者客观上的选择和偏倚。
这样得出的最终结论,才可信。
至于如何实现“随机”(而不是随便)、如何最大化地减少误差,这是一门高深的学问和庞大的领域。无数人都在研究。这里我就不班门弄斧了。
三、盲法
在实现了“对照”和“随机”以后,是不是就完美了呢?
已经很接近了,但,还隐隐约约总觉得哪里不对。
是哪里不对呢?
对,是心里(理)。
你或你的家人,或许有过这样的经历:
生病了,浑身难受,但又讲不清哪里难受。
去医院,医生给你检查了一遍说,哎,你的所有指标都很正常呀!
这样吧,先开个XX药,回家吃几天看看。
回家路上,你一身轻松,药还没吃,“病”就似乎已经好了大半。
是不是?
再回到刚才的分组。
如果一开始你就知道自己在“吃药组”,吃的是“真药”,可能还没吃,心情就大为舒畅。
每天喜笑颜开,规律作息,正常饮食,病或许好得更快。
而如果一开始你就发现,咦,我在“不吃药组”(对照组),给我吃的是安慰剂!?
于是心情糟透了,愤愤不平,郁郁寡欢,反而不利于治疗和康复。
所以,在很多研究中,
故意让病人并不知道自己被分在哪一组(单盲);
研究者也不知道某个病人被分在哪一组(双盲);
甚至资料的收集和分析者,也不知道每一组人的身份(三盲);
只有当数据分析完毕,得出了“有没有用”的最终结论,才根据一些“密码”,来揭晓答案(“开盲盒”)。
这时可能会发现,“呀,这个药真的有用!”
或者“呀!怎么安慰剂的效果更好(说明这个药没用)!”
这样,才可以尽量避免精神心理、情绪、行为等各种主观因素的影响,尽量保证结论的客观和公正。
四、大样本
如果一个研究,遵循了上面三个原则,那么基本可以说,得出的结论是真实可信的。
但还有点不够。
一家饭店A,好评率高达98%;
另一家饭店B,好评率为95%。
你会选择去吃哪个?
可能很多人会选A。
等一下!不要忘了看看分别有多少人评论。
A饭店,只有50个人发表评论。B饭店,有1万个人发表评论。
我可能会觉得,B饭店的这个“95%”更可信,更靠谱。
而A饭店的“98%”,虽然确实更高,但似乎并不是那么可靠和稳定。
说不定再多50个人、100个人评价,就达不到98%了。
虽然不能直接说“样本量越大,结论就一定越准确”,
但如果一个治病救人的药,只在几十个人甚至十几个人身上被证明“有效”,那么似乎还是不太可靠。
而在药品三期临床试验中,样本量一般要达到数千人,甚至数万人,才能得出最终的、可信的结论。
至于到底需要多大的样本量,以及如何计算——不同目的和类型的研究都有不同的公式。有兴趣的,可以翻翻统计学教材。
五、多中心(可重复)
有了随机,对照,盲法,大样本……堪称完美。
但如果一种疗法,只有A医生的团队可以证明其“有效”,是不是有点问题?
如果一个药,只能在B省C市D县的某些人群中才“有效”,是不是有点奇怪?
如果一个结论,去年的研究可以发现,到了今年就怎么也发现不了,是不是有点不靠谱?
确实,不同地区和人群,存在差异。
但一个“结论”如果无法复制,无法在不同时间、空间和人群中重复得到,无法形成“共识”,似乎也就不能被称为是一个“结论”。
对于一个娃来说,如果要确认其“学习好”,不能只是某个科目,某个章节、某个单元能考高分,不能用铅笔答题才能(用圆珠笔就不能)考高分,不能大晴天才能(雨天就不能)考高分,更不能坐在自己教室的第三排第二列才能考高分——而是要全天候、全方位、随时随地都能考高分。
所以,“多中心”、可重复,很重要。
如果你已经看到了这里,而且前面的内容都看懂了,那么应该已经明白:
一个假设,一个想法,一个猜想,只有通过“随机、对照、盲法、大样本、多中心”的验证,才可以成为一个真实可信的“结论”。
无法通过,就说明不了问题——那个假设,就是假的;那个想法,就是错的;那个“结论”,就是忽悠人的。
这无关地位高低,无关学问高深,也不是谁说了算。
这只需要最简单、最原始的逻辑。
这才是“科学”。
当然,我想说的,远不止这些。以后再慢慢聊。
希望你能让更多人,看到这篇文章。
希望你能从今天开始,打开一扇崭新的大门。
END
包包,复旦大学硕士,副主任医师
中国科普作家协会医学科普委员会会员
长期从事疫苗接种管理和科普工作
本号所有原创文章只代表个人观点
更多:1.时隔多年再次更新!狂犬病疫苗怎么打?刚发布的规范这样说!
2.早死才是最天然