使用BeautifulSoup4爬取论文网页 | 第130期
前几天打算分析一下最近几年CVPR论文的情况,网上又没有现成的完整数据,就自己动手写个爬虫爬取论文网页。现在爬虫已经成为一个专门的就业领域,与之相关的支持框架也数不胜数。大家耳熟能详的基本都是大型整站爬虫框架,但一般对于像这样的小需求,杀鸡焉用宰牛刀。
这里的主要的方案是使用两款Python第三方库 requests 和 beautifulsoup4。其中,requests 负责请求网页,beautifulsoup4 负责解析html文本。请求网页的库非常多,大部分使用都很简单,因此本方案的重点是熟悉beautifulsoup4的使用,特别是关于元素选择器的部分。
有类似需求的朋友可以参照试试。
大体过程记录如下,一共分为5步:
(1) 使用requests下载网页;
(2) 使用BeautifulSoup4解析html文本;
(3) 选择需要的目标元素,可以使用标签名、id、class以及其他的指定信息;
(4) 获取标签所包含的文本; (5) 标签文本包含一些不必要的空格字符,需要进行清理。
爬虫会给服务器资源造成一定压力,可能会对服务提供商的正常经营产生影响。因此倡导大家在使用爬虫时合法合规,尽量限制请求的密度,避免引起法律纠纷。
源码地址: https://github.com/jielyu/python_demos/tree/master/d0015_cvpaper_spider