多起村干部被灭门案,需要反思了!

高铁打人者身份被曝光,人脉资源碾压普通人!却遇到了硬茬

OPPO芯片业务解散不一定是坏事

明确了!任期届满后,他不再寻求连任!

去泰国看了一场“成人秀”,画面尴尬到让人窒息.....

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
查看原文

使用BeautifulSoup4爬取论文网页 | 第130期

lyu无忆 青衣极客 2022-10-29

       前几天打算分析一下最近几年CVPR论文的情况,网上又没有现成的完整数据,就自己动手写个爬虫爬取论文网页。现在爬虫已经成为一个专门的就业领域,与之相关的支持框架也数不胜数。大家耳熟能详的基本都是大型整站爬虫框架,但一般对于像这样的小需求,杀鸡焉用宰牛刀。

       这里的主要的方案是使用两款Python第三方库 requests 和 beautifulsoup4。其中,requests 负责请求网页,beautifulsoup4 负责解析html文本。请求网页的库非常多,大部分使用都很简单,因此本方案的重点是熟悉beautifulsoup4的使用,特别是关于元素选择器的部分。

       有类似需求的朋友可以参照试试。


大体过程记录如下,一共分为5步:

(1) 使用requests下载网页;

(2) 使用BeautifulSoup4解析html文本;

(3) 选择需要的目标元素,可以使用标签名、id、class以及其他的指定信息;

(4) 获取标签所包含的文本; (5) 标签文本包含一些不必要的空格字符,需要进行清理。


爬虫会给服务器资源造成一定压力,可能会对服务提供商的正常经营产生影响。因此倡导大家在使用爬虫时合法合规,尽量限制请求的密度,避免引起法律纠纷。

源码地址: https://github.com/jielyu/python_demos/tree/master/d0015_cvpaper_spider


文章有问题?点此查看未经处理的缓存