查看原文
其他

大国丢娃图:从川渝到徐州!

爬虫俱乐部 Stata and Python数据分析 2022-12-31
本文作者:赵一帆,中南财经政法大学金融学院

本文编辑:孙一博

技术总编:戴   雯

Stata&Python云端课程来啦!

         为了感谢大家长久以来的支持和信任,爬虫俱乐部为大家送福利啦!!!Stata&Python特惠课程双双上线腾讯课堂~爬虫俱乐部推出了Python编程培训课程Stata基础课程Stata进阶课程。报名课程即可加入答疑群,对报名有任何疑问欢迎在公众号后台和腾讯课堂留言哦。我们在这篇推文的最后提供了每门课程的课程二维码,大家有需要的话可以直接扫描二维码查看课程详情并进行购买哦~

导读

江苏省徐州丰县“八孩母亲”事件一波未平一波又起,2022年2月15日,知名调查记者,凤凰周刊前编委邓飞曝出董某民和杨某侠的结婚证照片,更是引发对该事件的争议。主要疑点在于,首先从长相上看,图中杨某侠与八孩母亲长相并不相似;其次是结婚证上杨某侠1969年出生,推算出现在年龄为53年,年龄与八孩母亲更是差距甚远;还有大儿子已经23岁,名为董香港,1997年香港回归,所以大概1996年母亲就应该怀孕了。所以究竟八孩母亲的真实身份是什么呢?这样来看,杨某侠与董某民确实结婚了,我们试想会不会是杨某侠在生完大儿子消失了,之后董某民在街边捡到了一个女人,并顶替杨某侠之前的结婚证?之前的八个孩子的DNA检验真的可信吗?我们等待丰县“八孩母亲”的真相!
而我们现在更需要对拐卖事件保持足够的警惕,抵制拐卖儿童和妇女的事情发生!宝贝回家是一个宝贝回家网是帮助寻找失踪儿童及孩子寻家的公益网站。访问宝贝回家页面,我看到一条条寻宝贝回家的信息,有的孩子在快乐玩耍的年纪就被不法分子拐卖,还有的可能找了数十年还没有结果,令人感到十分痛心!他们的家庭原本是和谐美满的,但是失去家里宝贝亲人们感到无比地痛苦和绝望,只能用尽一切办法去追寻找到孩子的一丝希望,唯愿这些失散的宝贝能早点回家,回到一个幸福而完整的家庭!

一、数据搜集

我们从宝贝回家网站(https://www.baobeihuijia.com/Index.aspx)的家寻宝贝板块,爬取寻亲者对家中失踪者的性别、年龄和失踪地点的相关信息,共获取到47840条信息。


爬取的过程主要分为两歩,第一步是通过网页源代码爬取单个网页的网址信息,得到单个网页每个人的具体信息界面的链接。
*爬取单个网页的网址clearcap mkdir "E:\家寻宝贝\一次爬虫"cd "E:\家寻宝贝\一次爬虫"copy "https://www.baobeihuijia.com/list.aspx?tid=1&sex=-1&photo=-1&page=1" temp.txt,replaceinfix strL v 1-100000 using temp.txtkeep if index(v,"/></a></dt>")split v,p(`"><a href=""' "amp;"`""><img class="') replace v=v2+v3keep vreplace v="https://www.baobeihuijia.com"+vsave "bfh_1.dta",replace
第二步,我们需要爬取每个网页具体失踪信息的内容,这里以寻亲编号为595835为例,获取到寻亲编号、失踪者性别、出生日期、失踪时间等相关信息。接下来,使用循环遍历这个板块的所有网页的寻亲信息就可以啦~这些循环的知识在我们的网课部分也有较为详细的讲解。
clearcap mkdir "E:\家寻宝贝\二次爬虫"cd "E:\家寻宝贝\二次爬虫"copy "https://www.baobeihuijia.com/view.aspx?type=1&id=595835" temp.txt,replaceinfix strL v 1-100000 using temp.txt,clearkeep if index(v, "<li><span>") split v,p("</span>") keep v2replace v2 = ustrregexra(v,"<.*?>", "")sxpose, clearkeep _var2 _var4 _var5 _var7 _var9 _var10rename _all (寻亲编号 性别 出生日期 失踪时间 失踪地点 寻亲者特征描述 )save "mess_1.dta",replace

二、数据可视化分析

(一)丢娃地区分布图

首先,我们爬取失踪者有关失踪地点的信息,下面分别展示了全国丢娃分布图和全国前10丢娃城市。

全国丢娃分布图


全国前十丢娃城市

由上述图片,我们可以看到丢娃最多的省份分别为四川省、广东省、贵州省、河南省、江苏省、湖北省以及安徽省、湖南省、山东省和陕西省;丢娃最多的城市主要在重庆市、上海市、贵阳市等地。其中四川省、重庆市、广东省、贵州省江苏省这些地方家庭寻找亲人的数量比较多,应当受到更多的关注。

江苏省各市丢娃人数

由全国丢娃分布图可知,我们也可以看到江苏省丢娃数量较多,这也让我们想到徐州丰县的“精神失常女子生育8子”事件,那么江苏省各个地市丢娃分布是怎样的呢?我们保留江苏省的数据,绘制如下表格。

如图所示,江苏省丢娃较多的地级市有南京市、徐州市、无锡市和苏州市等,其中徐州市发生失踪案件的频率相对较高,整体法治环境较差,或许这也可以侧面反映杨某侠被拐卖的可能性。

(二)性别分析

我们通过对“家寻宝贝”板块47840条信息进行性别的分类统计,其中失踪者中男性有21105人,女性有26735人,分别占比44.12%和55.88%。我们可以发现女性的失踪人数和比例都是稍高于男性的,说明女性相比于男性是弱势群体,更加需要得到社会整体的关注!

(三)年龄分析

接着,我们对失踪者年龄的分布分类分析,由下图我们可以直观地看到:整体样本中,0-5岁失踪的孩子已经超过36000人,超过整体样本的75%,在各个年龄段中占比最高!5-10岁失踪的孩子和10-20岁失踪的孩子在整体样本中占比大体相等,分别占比约13.68%和12.95%。20岁以上失踪的孩子超过300人,在各个年龄段中占比最低。

数据表明,0-5岁的孩子属于失踪高发群体,也是最为弱势的群体。孩子处于婴幼儿时期的安全意识较弱,也没有较高的辨别风险和防御外界危险的能力,需要家长的尽心监管和社会的保护!而5-10岁和10-20岁失踪的孩子占比虽然不是最高的,但是每一个失散的宝贝对家庭来说都是非常重要的存在,也需要得到社会各界的关爱。20岁以上失踪的孩子占比最小,这也反映了随着年龄的增长,人们自我保护的能力和意识不断增强。
综合上述结果,可以看到女性和婴幼儿是最为弱势的群体,也是最需要得到社会各部门的重视的!加大对拐卖事件的处罚力度,严惩不法分子,同时更加关注和保护弱势群体,让亲人不再承受宝贝走失之苦,让失散的宝贝早日归家,让每个家庭幸福美满!
END

最后,我们为大家揭秘雪球网 (https://xueqiu.com/) 最新所展示的沪深证券和港股关注人数增长Top10。



腾讯课堂课程二维码





            


 对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!












往期推文推荐

        丰县“失火”,殃及徐州:股市超跌近30亿!

        Unicode转义字符——编码与解码

        徐州!徐州!

        B站弹幕爬虫——冬奥顶流冰墩墩&雪容融

        不会用Stata做描述性统计表?so easy!

        丰沛之地:备足姨妈巾

 过年啦,用Python绘制一幅属于你的春联吧!

       登上爬虫俱乐部“时光机” |上“机”出发 开启一段奇妙之旅

       【基础篇】查找并输出子字符串的定位

        Stata中的小清新命令——添加观测值

        PCA(主成分分析法)降维——Python实现

       超好用的事件研究法

        如何绘制任泽平《鼓励生育基金》的几幅图

        Python 第六天——字符串

        findname——想要什么找什么

        Python字符串之“分分合合”

        PDF转docx可批量操作?——wordconvert的小技巧

        考研之后,文科生需以“do”躬“do”!

       手绘五星兴家国——用Stata绘制五星红旗

        Seminar丨董事会的性别多样化和企业创新:来自国际的证据

       Python与数据库交互——窗口函数

        Stata之post命令——数据邮递 

        爬虫俱乐部成员的Stata学习经验分享来啦!

       Seminar丨2002年萨班斯·奥克斯利法案的经济后果

        我几乎画出了“隔壁三哥”家的国旗

        Python基础——三大数字类型,你都了解吗?
        如何用Stata绘制带指向性箭头标注的图像       
       Seminar丨荐仆贷款——19世纪中国的信任辅助贷款       【技能篇】多进程队列间通信

Seminar丨公司董事会的人才增长:来自中国的证据

正则表达式--懒惰模式

爬完独立董事的年薪,我的眼镜跌破了!识别旅游“照骗”——看风景名胜是否名副其实主成分分析的Python实现

正则表达式--贪婪模式

关于我们 


   微信公众号“Stata and Python数据分析”分享实用的Stata、Python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。

   武汉字符串数据科技有限公司一直为广大用户提供数据采集和分析的服务工作,如果您有这方面的需求,请发邮件到statatraining@163.com,或者直接联系我们的数据中台总工程司海涛先生,电话:18203668525,wechat: super4ht。海涛先生曾长期在香港大学从事研究工作,现为知名985大学的博士生,爬虫俱乐部网络爬虫技术和正则表达式的课程负责人。



此外,欢迎大家踊跃投稿,介绍一些关于Stata和Python的数据处理和分析技巧。

投稿邮箱:statatraining@163.com投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里
为作者署名,并有赏金分成。

2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众
号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。






您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存