用大数据告诉你,新型冠状病毒传染性有多强?
“ 新型肺炎疫情牵动着全国人民的心。截至 2020 年 2 月 1 日 22 时,全国新型肺炎病例已确诊 11890 例,死亡 259 例,治愈 274 例。
不出意外的话,你看到这篇文章的时候,人数还会比这个要多一些。
新型肺炎疫情牵动着全国人民的心。截至 2020 年 2 月 1 日 22 时,全国新型肺炎病例已确诊 11890 例,死亡 259 例,治愈 274 例。
不出意外的话,你看到这篇文章的时候,人数还会比这个要多一些。00
声明&目的
作为一名码农,我们用数据说话,下面为大家分析目前的新型冠状病毒真的严重吗?
本文只是一个学术的研究,能够获取的数据维度非常单一且数据量也少,并无任何实际的价值和参考意义,请不要对号入座,请不要随便断章取义,歪曲本文。 本文的数据来自于 WHO,国家卫检委,腾讯新闻和澎湃新闻美数课。全部人工抄录,如有错误之处,敬请指出。 本文写于 1 月 26 日,当时获取到的信息非常有限,得出的结论可能会被后续更多的数据被推翻。再次声明,所以本文仅是一个学术的探讨,仅仅是一个思路,并无实际的价值和参考意义。 本人也是个菜鸡程序员,可能会有数据错误,程序没写好,有 Bug 等,欢迎指正批评。一起探讨学习。
文章分为如下五个部分:
猜想
数据准备
猜想验证
新型冠状病毒确诊数据的预测和验证
总结
PS : 心急的朋友可以直接拖到末尾看结论。
01
猜想
确诊病例
疑似的病例
感染的地区
死亡的人数
那么只要找到一个和新型冠状病毒这三个属性非常相似的病毒,只要算法能够对这种病毒的确诊病例进行预估和判断,那么算法也可以对新型冠状病毒进行预估和判断。
气候和现在差不多,都是 1 月开始,但是 SARS 在 3 月才扩散。
地区主要是是中国。
病毒类型:都是冠状病毒,都有发烧咳嗽等特征。
①如果当前确诊的病例-预测的确诊病例的比率>Δ,那么当前的疫情变异了,进一步扩大影响的范围。
②如果当前确诊的病例-预测的确诊病例的比率<-Δ,那么当前的疫情已经基本被控制,已经减弱了。
③如果-Δ<当前确诊的病例-预测的确诊病例的比率<Δ,那么当前的疫情还在平稳的发展中,没有进一步变异。
02
数据的准备
SARS 的数据来源于 www.who.int , 数据从 2003 年的 3 月 17 日-5 月 30 日 。
新型冠状病毒的数据来源于腾讯新闻和国家卫生健康委员会 http://www.nhc.gov.cn 数据从 2020 年的 1 月 15 日到 1 月 26 日。
评估的算法:采用了 LSTM(长短期记忆网络),搭建的话 Keras。
最终调教后的算法模型是,根据过去三天的数据,可以预估最新一天的数据。
实验的环境:数据量比较少,直接租了一台 16 核 8G 的阿里云的主机进行测试。
03
猜想验证
SARS 的数据分别有两部分,一部分是中国大陆的,一部分是中国香港的。在 5 月份后基本已经趋于平缓,所以只取了前两个月(约 60 天左右的数据)。
预测和实际的对比如下:
中国大陆 SARS 确诊人数变化曲线(预测和实际)
误差:|(实际值-预估值)/ 实际值 |
中国大陆:误差的平均值 0.057, 误差的均方差 0.060。
中国香港:误差的平均值 0.053, 误差的均方差 0.137。
那么前期是否可以使用同一个模型进行验证呢? 这里只取中国大陆的数据进行试验。
前期的数据建模人数变化曲线(预测和实际)
中期的数据建模人数变化曲线(预测和实际)
斜率的改变
误差的改变
转折点的个数等
在爆发期里面,最靠近转折点的误差值是 0.21。
在控制期里面,最靠近转折点的误差值是 0.14 。
两个取平均作为 Δ 的值,也就是 0.175 。
04
新型冠状病毒确诊数据的预测和验证
到 20 号的数据模型确诊人数变化曲线(预估和实际)
如果实际的确诊人数>3337,说明疫情加重。
如果实际的确诊人数<2367,说明疫情正在被控制。
如果处于中间,那还是依旧在扩散发展中,但并未恶化。
05
总结
例如支援的物品的统计,损耗和使用情况等
例如病人的数量对物品的需求等
例如疫情各个时期需要多少的物资统计等
作者:wstart
出处:转载自微信公众号 wstart(ID:start_w)
1、GitHub 标星 3.2w!史上最全技术人员面试手册!FackBoo发起和总结
5、37岁程序员被裁,120天没找到工作,无奈去小公司,结果懵了...