查看原文
其他

我花了14个小时,终于找到了长春长生们究竟卖到了哪里去

wstart 51CTO技术栈 2018-09-21

长生生物的疫苗问题,7 月 21 日引爆了朋友圈。因接连被曝出的狂犬病疫苗和百白破疫苗问题,国内疫苗企业长生生物公司陷入了深深的舆论风波。


微博等各大媒体上也都不断发酵,越来越多的真相被爆出,舆论哗然!面对如此严峻的形式,各界纷纷发声,京东创始人刘强东就表示这种生产假药的人就应该无期徒刑,不得减刑!

此次假疫苗事件使得无数家长恐慌、愤怒!纷纷表示对国产疫苗失去信心!愤怒归愤怒,但还是要理智对待,相信有关部门会给百姓一个解释!

想到问题疫苗有可能被注射进自己孩子的身体,让人愤怒又恐惧。那么,除了指责,我们还能做什么?


面对这次疫苗事件,咱们万能的程序员又来拯救世界了!下面这位程序员,牺牲了十四个小时,通过技术手段,找到了长春长生们的疫苗究竟卖到了哪里去了。(给这位猿一个大大的赞


什么是第二类疫苗


第一类疫苗,是指政府免费向公民提供,公民应当依照政府的规定受种的疫苗。


包括国家免疫规划确定的疫苗,省、自治区、直辖市人民政府在执行国家免疫规划时增加的疫苗,以及县级以上人民政府或者其卫生主管部门组织的应急接种或者群体性预防接种所使用的疫苗。


第二类疫苗,是指由公民自费并且自愿受种的其他疫苗。常见的二类疫苗有:口服轮状病毒疫苗、甲肝疫苗、HIB 疫苗、流感疫苗、狂犬病疫苗等。


这次事件的起因是?长春长生是一家药企,但是在最近的事件中,被发现所造疫苗连续造假:

  • 7 月 15 日,药监局发现长春生产的狂犬疫苗出了问题。没收了 GMP 证书。

  • 7 月 20 日,长春生产的吸附无细胞百白破联合疫苗因【效价测定】项不符合规定,收到了《吉林省食品药品监督管理局行政处罚决定书》,没收库存的“吸附无细胞百白破联合疫苗” 186 支。


但是这个家药企的历史背景更是劣迹斑斑,详情请自行查阅的《疫苗之王》。


这次涉事的不止长春长生,还有长生生物、武汉生物、江苏延申、深圳康泰、民海生物等也一并列入分析情况,涉事的是二类疫苗(不太清楚一类疫苗的情况,能力有限,先从二类疫苗开始)。


本文的主要目的是通过已经公示的情况来查看一下长春二类疫苗在各省份的情况,方便各位进行参考和自检。


数据采集


因为有一些实在太难找了,只能来看一下两年的情况,并且不考虑增补名单,所以我自己的整理并不完整,所有数据和代码已经全部同步到 GitHub。


采集关键词:

  •  省名  第二类疫苗  采购

  •  省名  第二类疫苗  公示

  •  省名  第二类疫苗  产品及价格

  •  省名  第二类疫苗  供应商 

  •  省名  第二类疫苗  中标目录

  •  省名  第二类疫苗  参考价

  •  省名  第二类疫苗  入围结果


采集结果:

  • 北京市,来源:北京市 2018-2019 年免疫规划用第二类疫苗采购项目。

  • 天津市,来源:天津市 2018-2020 年第二类疫苗集中采购项目拟中标/拟中选结果。

  • 上海市,来源:2018 年度上海市第二类疫苗集团采购项目中标目录。

  • 重庆市,来源:重庆市第二类疫苗供应商入围采购-采购结果预公示。

  • 河北省,来源:河北省疾病预防控制中心 2018 年度第二类疫苗省级集中采购项目中标公告。

  • 山西省,来源:2018 年度山西省第二类疫苗集中采购入围企业产品及价格

  • 辽宁省,来源:辽宁省第二类疫苗平台招标采购公告。

  • 吉林省,来源:2017 年度吉林省第二类疫苗集中采购企业产品议价结果名单。

  • 黑龙江省,来源:黑龙江省 2018 年第二类疫苗挂网采购中标企业产品及价格审核结果。

  • 江苏省,来源:江苏省第二类疫苗集中采购中标产品(这个还花了我 19.9 在百度文库买的,艹)。

  • 浙江省,来源:浙江省 2018 年第二类疫苗中标目录。

  • 安徽省,来源:安徽省 2018 年第二类疫苗集中采购目录。

  • 福建省,来源:福建省 2018 年第二类疫苗集中采购目录_湄洲岛。

  • 江西省,来源:1228 江西省 2018 年度第二类疫苗入围品种目录。

  • 山东省,「找不到」。

  • 河南省,来源:2017 年河南省二类疫苗供应商入围资格采购项目中标结果公告。

  • 湖北省,来源:2017 年湖北省第二类疫苗集中采购成交产品。

  • 湖南省,来源:湖南省第二类疫苗集中采购文件。

  • 广东省,来源:2018 年度广东省第二类疫苗成交品种目录。

  • 海南省,来源:海南省第二类疫苗品种目录(第一批)。

  • 四川省,来源:2017 年度第二类疫苗挂网阳光采购结果。

  • 贵州省,来源:贵州省第二类疫苗集中采购报价解密结果。

  • 云南省,来源:云南省疾病预防控制中心二类疫苗公开招标入围项目入围公告。

  • 陕西省,来源:陕西省 2018 年二类疫苗集中采购项目入围供应商磋商结果。

  • 甘肃省,来源:甘肃省第二类疫苗供应资格采购项目中标公示。

  • 青海省,来源:所有的第二类的价格信息全部转到:223.220.250.135:8038,无法查看。

  • 台湾省,暂无 。

  • 内蒙古自治区,2018 年内蒙古自治区第二类疫苗集中采购入围企业产品及价格。

  • 广西壮族自治区,2017 年度广西壮族自治区第二类疫苗直接挂网采购拟入围产品目录(电子版)。

  • 西藏自治区,实在找不到。

  • 宁夏回族自治区,2016 年宁夏回族自治区第二类疫苗公开招标预中标结果。

  • 新疆维吾尔自治区,《自治区 2017 年第二类疫苗入围品种及价格目录》20170828.xls。

  • 香港特别行政区,暂无。

  • 澳门特别行政区,暂无。


综上,除去港澳台 , 山东,青海以及西藏以外,只拿到了 30 个省级行政区的二类疫苗数据公示情况。


单单是去检索,下载的过程,就足足花了 7 个多小时。作为政府需要公示的数据,没想到获取的过程这么困难和艰辛。


遇到的问题有:

  • 某些政府网站先登录才可以下载

  • 有些政府网站被菠菜了 

  • 搜索框有,但是没得按

  • 有些只有图片

  • 有些只在公告出现过


找不到信息的有:

  • 山东省,只看到新闻说建了可追溯的展示平台,不知道怎么追。

  • 青海省,所有的第二类的价格信息全部转到:223.220.250.135:8038,无法查看。

  •  西藏,神秘的力量导致无法搜索。


如下图,最终获取到 27 个省份的数据:

数据整理


由于不是专业的医药人士,所以统一把数据整理成以下的 csv 格式:

  • 通用名,来源,生产企业,申报企业,省,中标年份

  • name,src,create_company,report_company,prov,year


各项含义如下:

  • 通用名:药名  -> name

  • 来源:国产/进口 -> src

  • 生产企业:create_company

  • 申报企业:report_company(如果为空再填充为生产企业)

  • 省:prov

  • 中标年份:year


又因为整理非 XLS 的文件消耗大量的时间,暂时也得先延后,先把成型的数据集提取。

最终结果如下:

  • 数据标准csv(14),吉林省,四川省,天津市,宁夏回族自治区,安徽省,山西省,广东省,新疆维吾尔自治区,江苏省,江西省,海南省,贵州省,辽宁省,黑龙江省。

  • 等待整理的数据(13),上海市,云南省,内蒙古,北京市,广西省,河南省,浙江省,湖北省,湖南省,甘肃省,福建省,重庆市,陕西省。

各地获取数据难易程度如上图所示:

  • 亮绿色是容易获取的数据

  • 暗绿色是可以获取的数据 

  • 黑色则是获取不到


数据分析


直接采用 pandas+echart 进行处理,首先把所有的 csv 整合,共有 1529 条数据,对所有的生成企业进行统计分析:

count    167.000000
mean       9.143713
std       15.839281
min        1.000000
25%        1.000000
50%        3.000000
75%        9.000000
max       98.000000


共 167 个厂家,其中中位数是 3,最高是 98,很明显这是一个偏态分布。顺手看一下箱线图:

也就是说,绝大多数的药,都被大厂垄断。我们输出前 10 个看看:

长春长生位列第二。我们再来看看各个省份中,长春长生等占据的百分比:

[{'name''天津''value': 14.0625},
 {'name''辽宁''value': 17.647058823529413},
 {'name''黑龙江''value': 13.274336283185843},
 {'name''安徽''value': 9.75609756097561},
 {'name''新疆''value': 16.94915254237288},
 {'name''江苏''value': 14.563106796116504},
 {'name''江西''value': 12.179487179487179},
 {'name''山西''value': 16.52173913043478},
 {'name''吉林''value': 17.857142857142858},
 {'name''贵州''value': 14.17910447761194},
 {'name''广东''value': 13.445378151260504},
 {'name''四川''value': 16.93548387096774},
 {'name''宁夏''value': 17.5},
 {'name''海南''value': 14.285714285714285}]


如上图,长春长生等在 14 个有数据的省份供应商中均占有一席之地,打到地图上看看:

  • 亮红色:接近 20%

  • 暗红色:接近 10%

  • 黑色是没数据

结合它的销售策略来看,(这个图是从它官网下载所得)。

销售的情况比它想象的要好呢,在这 14 个省份里面,每 10 种疫苗,就有一种来自长春长生们的手中。

结论


我花了整整 14 小时,却才整理了一半的省份,北京,上海,浙江等大省却连数据都找不全,需要人工去校对。


许多省份还偷偷把公示的数据强行加上了登陆认证的权限,对于一个以网络为生的我获取这些信息十分吃力。


对于普通人而言,那就更加无从下手了,直到现在药监局迟迟没回应,可能他们也发现了,寻找这些疫苗药物,真的比较困难吧。


所有数据我会同步到:https://github.com/fuckcqcs,有兴趣的同学可以下载回来研究,后续我会完善其他省份。


作者:wstart

编辑:陶家龙、孙淑娟

出处:本文经作者授权转载自 wstart微信公众号,转载请联系作者授权

精彩文章推荐:

爬了《邪不压正》上万条网评,告诉你到底值不值得看?

如何看出一个程序员的技术能力和水平?

知乎十万级容器规模的分布式镜像仓库实践

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存