其他
【爬虫实战】双一流大学的月关注度
本文作者:崔赵雯,中南财经政法大学金融学院
本文编辑:寇晓璇
技术总编:王子一
Stata&Python云端课程来啦!
寒雪梅中尽,春风柳上归。为了感谢大家长久以来的支持和信任,爬虫俱乐部为大家送福利啦!!!Stata&python特惠课程双双上线腾讯课堂~原价2400元的Python编程培训课程,现在仅需100元,详情请查看推文《Python云端课程福利大放送!0基础也能学~》;原价600元的正则表达式课程,现在仅需49.9元,详情请查看推文《与春天有个约会,爬虫俱乐部重磅推出正则表达式网络课程!》;原价600元的基本字符串函数课程,现在仅需49.9元,更多信息请查看推文《与春天有个约会,爬虫俱乐部重磅推出基本字符串函数网络课程》;原价600元的网络爬虫课程,现在仅需49.9元,更多信息请查看推文《与春天有个约会,爬虫俱乐部重磅推出网络爬虫专题课程》;原价600元的文本分析课程,现在仅需49.9元,更多信息请查看推文《与春天有个约会,爬虫俱乐部重磅推出文本分析网络课程》。变的是价格,不变的是课程质量和答疑服务。对报名有任何疑问欢迎在公众号后台和腾讯课堂留言哦!A
爬虫思路
B
爬虫实战
1import requests
2import jsonpath
3import pandas as pd
4
5url = "https://api.eol.cn/gkcx/api/?access_token=&admissions=¢ral=&department=&dual_class=&f211=&f985=&is_doublehigh=&is_dual_class=&keyword=&nature=&page=1&province_id=&request_type=1&school_type=&signsafe=&size=15&sort=view_total&type=&uri=apidata/api/gk/school/lists"
6headers = {
7 "Accept": "application/json, text/plain, */*",
8 "Content-Type": "application/json;charset=UTF-8",
9 "Host": "api.eol.cn",
10 "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36"
11}
12html = requests.post(url, headers = headers)
13false = False
14null = ''
15page = eval(html.text)
16test = page.get('data').get('item')
17name_list = []
18address_list = []
19bq_list = []
20ygzd_list = []
21for t in test:
22 name = t.get('name')
23 address = t.get('address')
24 bq=t.get('dual_class_name')
25 ygzd = t.get('view_month_number')
26
27 name_list.append(name)
28 address_list.append(address)
29 bq_list.append(bq)
30 ygzd_list.append(ygzd)
31file = '/Users/cc/Desktop/cc的推文/热力图/高校名单及所在地.xlsx' #这里放你想存储位置的地址
32df = pd.DataFrame(data = [name_list, address_list, bq_list,ygzd_list]).T
33df.columns = ["名称", "所在地", "标签","月关注度"]
34df.to_excel(file, index = None)
C
数据处理
1import pandas as pd
2from pandas import DataFrame
3
4df = pd.read_excel('/Users/cc/Desktop/cc的推文/热力图/高校名单及所在地.xlsx')
5df1=df.loc[df['标签'].isin(['双一流'])] #先判断标签列里是否有双一流,然后将符合条件的数据提取出来
6df1.to_excel(r'./双一流高校名单及所在地.xlsx',index=False)
接下来,我们对数据按月关注度进行降序排序:
1import pandas as pd
2
3df=pd.read_excel('/Users/cc/Desktop/cc的推文/热力图/双一流高校名单及所在地.xlsx')
4df.sort_values(by='月关注度',inplace=True,ascending=False)
5df.to_excel(r'./双一流高校名单及所在地.xlsx',index=False)
小贴士:接下来我们还会为大家呈现双一流大学月关注度的“热力图”,欲知后事如何,请听下回分解~敬请期待吧~
对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!
【爬虫实战】“中国人不吃这一套”——人民日报微博评论分析
“学术明星”——双重差分法(DID)的Stata操作
【爬虫实战】南京地铁又上热榜——客流量分析
Stata中字符串的处理
我在哪里?调用高德API获取地址经纬度信息
超级简单的条件函数,轻松生成虚拟变量
Python云端课程福利大放送!0基础也能学~
【爬虫实战】“我们,继续新故事”——爬取LOL英雄皮肤
“人像动漫化”—Python实现抖音特效
《唐探3》做错了什么?|来自150万字影评的证据
爬虫俱乐部年度总结|《请回答2020》
模糊匹配我只用这一招!
利用tushare获取财务数据
爬虫实战|Selenium爬取微信公众号标题与链接
强大的正则表达式
自动群发邮件(二)——附带附件
自动群发邮件--email和smtplib基本模块的使用
关于我们
微信公众号“Stata and Python数据分析”分享实用的Stata、Python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。
此外,欢迎大家踊跃投稿,介绍一些关于Stata和Python的数据处理和分析技巧。
投稿邮箱:statatraining@163.com投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。