原创 | 疫情与数据,采集不准确,分析无意义
点击上方蓝字关注数据玩家
随着疫情不断扩散,数据分析的同行们也都摩拳擦掌,基于疫情数据开始了各类分析,这几天看到了各类基于疫情数据的分析,考察了各项基础数据的变化,包括但不限于基础指标的增长率、指标交叉计算的增长率(如确诊率、死亡率等)等等,甚至参考证券行业指标,计算了五日均线,七日均线等等。看了这么多数据,数据玩家最大的感觉是,能看出一些趋势,但是很难得到确定的结论。这并不奇怪,我们面对的是一个陌生的病毒,其传播机制尚未完全明确,轻症带病、潜伏期是否会传染等特点也导致难以通过几个简单的指标就预测疫情走势。
今天看了南方周末的一篇文章,有些启发:谁是“假阴性”新冠肺炎病人。
当前疫情数据的最大问题,是数据采集环节严重失真。
通过上面的的文章,我们可以发现核酸检测先阴后阳的情况很常见:
她口中的李文亮,是最早将此次疫情传出的“造谣”医生之一。李文亮共查了3次核酸,第一次结果未知,第二次为阴性,第三次才为阳性。这是他当天在微博上宣布的消息,离他起病已过去了23天。
不惟武汉,在浙江台州,一家定点医院的医务科主任告诉南方周末记者,他在2月3日的视频会议上,听省级专家说起,在杭州一所医院,有个病人测了6次核酸试剂都为阴性,直到第7次才测出阳性。
他所在的医院也有类似病例。一对从武汉回来的夫妻发烧,肺部影像报告也显示病毒感染,但三次核酸检测都是阴性。
也不惟病人,多位在疫区的医生向南方周末记者证实,现在存在病人核酸检测阴性转阳性的情况。
谁是“假阴性”新冠肺炎病人-南方周末
究其原因,数据采集到确诊的过程中,多个环节可能都存在问题。
在武汉一线支援的检验科医生王锐智说,检验业内常说“garbage in, garbage out(垃圾标本出垃圾结果)”。 谁是“假阴性”新冠肺炎病人-南方周末
这句话数据行业的同行们再熟悉不过了,这是数据行业最大的问题,如果数据采集不准,则后续分析意义不大,因为分析的源头就错了,再进行分析,只能是在错误的道路上越走越远。
数据采集不准,轻则数据不可用,重则推导出错误的结果,基于错误推导结果下了错误的决策,失之毫厘,谬以千里。
数据玩家曾经帮助某银行信用卡中心诊断数据质量,发现客户信息表中的关键字段,如“工作单位”、“职位”等数据质量很差,这些字段在生产库中有数十万个取值,绝大部分取值只有1-2条数据,这使得后续的分析完全无法利用这部分数据。原因就在于在数据采集阶段,这部分字段都是客户或者客户经理手填纸质单据,而后人工录入系统,手写时信息必然有误差,很多人图方便随意填写,而人工录入部分又没有校验,导致脏数据一路绿灯,最后进入生产库。
回到疫情数据的采集,数据玩家总结了难度文章中的几类问题:
方法论不明确。
到底核酸检测是不是精确?
是否能够应对病毒变异的情况?
样本采集质量难以控制。咽拭子取样要求患者张口,医护人员用棉签取其扁桃腺及咽后壁:
一个新冠病毒的感染病人,肯定是经常咳嗽的,张嘴取样必然会刺激其咽喉导致在取样过程中咳嗽,医护人员如果没有护目镜等防护装备,很容易在这个环节被感染。医护人员也是人,白衣天使们赌上性命为患者治疗的时候,疲劳、本能的恐惧都会导致采集样本位置不对、数量不够等问题,为后续的核酸检测埋下隐患。
检测工具准确性存疑。试剂盒赶鸭子上架,很多公司为了保证供应量,紧急生产,但是是否经过了完整的测试、评估、临床试验等环节的验证?
IT行业的从业者都知道,一个软件工程项目,需经历需求、开发、内部测试、SIT、UAT,在金融机构还会有准生产测试、生产验证,其实和药品、试剂盒等的研发很类似。但是针对紧急版本,IT行业也有紧急流程,所有测试并做一个执行,生产少量验证准备可回退版本等,这次的试剂盒肯定也是经过了紧急流程,速度快必然会导致质量不高等隐患,因此试剂盒是否都符合要求需要打个问号。
因此,在一个有待论证的方法论下,质量参差不齐的样本,通过准确性存疑的工具进行检测,结果准确吗?导致的后果,就是很多不能确诊,甚至检测出阴性的患者被要求回家隔离,实则患者已经患病,回家又感染了家人,甚至再次外出扩大感染范围。
那么怎么办?从数据行业的经验看,两方面建议:
应该标准化数据采集的过程,减少人工操作,能让客户从下拉框选择的,不要让客户手工填写。
从这个层面看,CT诊断有成熟的检验方法和流程,操作过程中交叉感染概率较低,从数据准确性上应该优于咽拭子取样+核酸检测。
不过也有核酸检测为阳性,但是肺部影像无表现的案例。因此我们需要进一步考虑方案。
在数据分析中,如果要筛选一类客群,而且原则是宁可错抓,不可漏过,那采取的逻辑应该是所有条件取并集,即条件A or 条件B or 条件C满足任意一个即满足目标客户条件。
对应到病例的确诊,最安全的做法,是有病症or核酸检测阳性or有疫区接触史or CT肺部影像有表现都算作疑似,隔离收治,待进一步确诊,而不能让病人离开医院。
当然,这个方法的大前提,就是床位、医疗资源充足。
我们从南方周末的文章中也可以看出,除湖北外的省份,由于医疗资源相对宽裕,对于疑似的患者,也是要求隔离收治的。湖北省内由于医疗资源,特别是床位的瓶颈,在早期难以收治疑似病患,导致疫情持续扩散。
不过目前一切都在改善,火神山、雷神山、方舱建好,相信疫情拐点很快会到来。