查看原文
其他

【爬虫实战】双一流大学的月关注度

爬虫俱乐部 Stata and Python数据分析 2022-03-15

本文作者:崔赵雯,中南财经政法大学金融学院

本文编辑:寇晓璇

技术总编:王子一

Stata&Python云端课程来啦!

     寒雪梅中尽,春风柳上归。为了感谢大家长久以来的支持和信任,爬虫俱乐部为大家送福利啦!!!Stata&python特惠课程双双上线腾讯课堂~原价2400元的Python编程培训课程,现在仅需100元,详情请查看推文《Python云端课程福利大放送!0基础也能学~》;原价600元的正则表达式课程,现在仅需49.9元,详情请查看推文《与春天有个约会,爬虫俱乐部重磅推出正则表达式网络课程!》;原价600元的基本字符串函数课程,现在仅需49.9元,更多信息请查看推文《与春天有个约会,爬虫俱乐部重磅推出基本字符串函数网络课程;原价600元的网络爬虫课程,现在仅需49.9元,更多信息请查看推文《与春天有个约会,爬虫俱乐部重磅推出网络爬虫专题课程》原价600元的文本分析课程,现在仅需49.9元,更多信息请查看推文与春天有个约会,爬虫俱乐部重磅推出文本分析网络课程。变的是价格,不变的是课程质量和答疑服务。对报名有任何疑问欢迎在公众号后台和腾讯课堂留言哦!

哈喽呀,铁铁们~最近考研调剂的浪潮席卷而来,不少小伙伴都在搜寻各大院校的调剂信息,各大院校的浏览量也是与日俱增,今天我们来康康双一流大学的月关注度,哪些大学会脱颖而出,备受关注~


A

爬虫思路

首先,我们进入“中国教育在线”官网。

进入官网以后,我们点击“院校数据库”。

进入院校数据库后,我们点击“查学校”。

这样,我们就能清楚地看到中国所有大学的信息。(ps:这里我们仅展示第一页的页面呦~)

在此页面上,我们按下“CTRL + Shift + I,再点击”Network“,查看该页面源代码。如下图所示:

找到真实的源代码后,我们打开真实的网页源代码,可以发现里面有我们想要获取的高校名称、高校所在地、月关注度等相关信息。

下面进入正题,上才艺!


B

爬虫实战

首先,爬取第一页上所有大学的信息。
1import requests 
2import jsonpath
3import pandas as pd
4
5url = "https://api.eol.cn/gkcx/api/?access_token=&admissions=&central=&department=&dual_class=&f211=&f985=&is_doublehigh=&is_dual_class=&keyword=&nature=&page=1&province_id=&request_type=1&school_type=&signsafe=&size=15&sort=view_total&type=&uri=apidata/api/gk/school/lists"
6headers = {
7    "Accept""application/json, text/plain, */*",
8    "Content-Type""application/json;charset=UTF-8",
9    "Host""api.eol.cn",
10    "User-Agent""Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36"
11}
12html = requests.post(url, headers = headers)
13false = False 
14null = '' 
15page = eval(html.text)
16test = page.get('data').get('item')
17name_list = []
18address_list = []
19bq_list = []
20ygzd_list = []
21for t in test:
22    name = t.get('name')
23    address = t.get('address')
24    bq=t.get('dual_class_name')
25    ygzd = t.get('view_month_number')
26
27    name_list.append(name)
28    address_list.append(address)
29    bq_list.append(bq)
30    ygzd_list.append(ygzd)    
31file = '/Users/cc/Desktop/cc的推文/热力图/高校名单及所在地.xlsx' #这里放你想存储位置的地址
32df = pd.DataFrame(data = [name_list, address_list, bq_list,ygzd_list]).T
33df.columns = ["名称""所在地""标签","月关注度"]
34df.to_excel(file, index = None)
得到结果如下:

我们若想爬取所有页面所有大学的信息,只需把上述程序外面再嵌套一个for循环即可。

C

数据处理

我们首先对数据进行筛选,仅保留双一流大学:
1import pandas as pd
2from pandas import DataFrame
3
4df = pd.read_excel('/Users/cc/Desktop/cc的推文/热力图/高校名单及所在地.xlsx')
5df1=df.loc[df['标签'].isin(['双一流'])]   #先判断标签列里是否有双一流,然后将符合条件的数据提取出来
6df1.to_excel(r'./双一流高校名单及所在地.xlsx',index=False)

接下来,我们对数据按月关注度进行降序排序:

1import pandas as pd
2
3df=pd.read_excel('/Users/cc/Desktop/cc的推文/热力图/双一流高校名单及所在地.xlsx')
4df.sort_values(by='月关注度',inplace=True,ascending=False)
5df.to_excel(r'./双一流高校名单及所在地.xlsx',index=False)

至此,月关注度排行榜的冠亚季军已经产生,让我们恭喜厦门大学、清华大学和四川大学!Congratulations!🎉

最后,希望每一个考研的铁铁们都能在今年九月份进入自己心仪的大学呀!别忘了点个赞,加个关注咯,转载、打赏都可以呦~(ps:后台回复“高校月关注度”即可获得相关数据~)

小贴士:接下来我们还会为大家呈现双一流大学月关注度的“热力图”,欲知后事如何,请听下回分解~敬请期待吧~


对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!

往期推文推荐

【爬虫实战】“中国人不吃这一套”——人民日报微博评论分析

进化的标签管理助手——elabel命令

“学术明星”——双重差分法(DID)的Stata操作

偷懒小妙招| selenium之玩转鼠标键盘操作(上)

【爬虫实战】南京地铁又上热榜——客流量分析

renfiles:批量重命名文件的利器

Stata中字符串的处理

物以类聚——浅述k-means聚类算法

我在哪里?调用高德API获取地址经纬度信息

超级简单的条件函数,轻松生成虚拟变量

Python云端课程福利大放送!0基础也能学~

【爬虫实战】“我们,继续新故事”——爬取LOL英雄皮肤

“人像动漫化”—Python实现抖音特效

跨框架合并数据|frlink的用法,你get到了吗

《唐探3》做错了什么?|来自150万字影评的证据

爬虫俱乐部年度总结|《请回答2020》

春节假期临近,来爬爬豆瓣看看有什么好剧

putdocx生成Word文档so easy!

模糊匹配我只用这一招!

利用tushare获取财务数据

爬虫实战|Selenium爬取微信公众号标题与链接

轻轻一点,就知有没有|rqrs命令介绍

强大的正则表达式

自动群发邮件(二)——附带附件

自动群发邮件--email和smtplib基本模块的使用

批量处理变量名和标签的小方法

关于我们 


微信公众号“Stata and Python数据分析”分享实用的Stata、Python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。



此外,欢迎大家踊跃投稿,介绍一些关于Stata和Python的数据处理和分析技巧。

投稿邮箱:statatraining@163.com投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存