其他
实战演练——爱婴医院中莆田系医院数据分析(二)
本文作者:张馨月
文字编辑:余术玲
技术总编:张 邯
爬虫俱乐部将于2020年1月5日至11日在湖北武汉举行为期一周的Stata编程技术定制培训,此次采取初级班和高级班分批次培训。课程通过案例教学模式,旨在帮助大家在短期内掌握Stata软件编程、金融计量知识和实证分析方法,使大家熟悉Stata核心的爬虫技术,以及Stata与其他软件交互的高端技术。目前正在火热招生中~详细培训大纲及报名方式,请点击《爬虫俱乐部2020第一期Stata编程训练营开始报名啦!》或点击文末阅读原文呦~
import docx
import pandas as pd
files = os.listdir() #返回指定的文件夹包含的文件或文件夹的名字的列表。
cc = 1 #定义一个循环算子,用于命名每一个WORD表格转换成的dataframe。
for c in files:
temp = []#定义一个空列表,用来存储表格中的信息。
doc = docx.Document(c) #这里的doc是一个句柄,用来操纵WORD。
for table in doc.tables:#假如有多个table,可以对table做循环。
i = 1
for row in table.rows:#对table中的每一行做循环。
print(len(table.rows))
i += 1
for cell in row.cells:
print(cell.text)
temp.append(cell.text.strip())
list=['编码','编号','医院名称','母乳喂养热线电话','医院第一名称','母乳喂养热线电话号码']
for inf in temp:
if inf in list:
temp.remove(inf)
data =pd.DataFrame(temp,columns=['ind']) #生成列名称为ind的列表
data['name'] = data['ind'].shift(-1) #生成name一列,内容为ind列上移一行
data['tel'] = data['ind'].shift(-2) #生成tel一列,内容为ind列上移两行
data['tf'] = data.index % 3 == 0 #生成tf列,若索引值除3余0,返回true
exec("var{} = data.loc[data['tf'] == True]".format(cc)) #变量var1存储了第一个WORD文件中tf值为true的表格信息。
cc += 1
result = var1
for nu in range(33):
if nu > 1:
exec("result =result.append(var{})".format(nu))
#使用循环将32个DataFrame合并起来。
final = result.drop(['tf'],axis = 1)
final.to_excel('爱婴医院.xls',encoding='utf-8',index = False) #将数据存储在爱婴医院.xls中
结果如下:
二、将爱婴医院与“莆田系医院”匹配
hospital =pd.read_excel('hospital.xlsx',header = 2)#从第三行开始读入,并将第三行设为变量名。
baby_hos = pd.read_excel('爱婴医院.xls')
hospital.rename(columns={'医院名称':'name'}, inplace=True)
common =pd.merge(hospital,baby_hos,how = 'inner',on = 'name')
#对hospital baby_hos进行合并,how表示取交集,on表示根据name进行合并
结果如下:
给你一个贴心的reshape应用
关于我们
微信公众号“Stata and Python数据分析”分享实用的stata、python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。