其他
Python爬虫之九派新闻
张世润,Python社区专栏作者
博客:https://zhuanlan.zhihu.com/pythoncoder
以前一直不知道如何爬取动态内容,知道看了@Lerther 的文章,才知道。下面拿九派新闻来试试。 原文https://zhuanlan.zhihu.com/p/24838761
1.寻找URL
进入九派新闻内容页http://jphao.jiupaicn.com/index.php?m=content&c=jiupaihao&a=index,“F12”——“Network”——“F5”,勾选“XHR”,发现多个文件。
经过一个一个寻找,在Preview中先测试,发现就是内容页的新闻,打开Headers,寻找我们要的URL,GET请求。
2.爬取内容
先上代码
import requests
import json
url = 'http://appjph.jiupaicn.com/app/content/recommend_pc/list?deviceId=888&type=1&page=1&pageSize=15&_=1485163767294'
webdata = requests.get(url).text
data = json.loads(webdata)
news = data['resultData']
for n in news:
title = n['title']
name = n['memberName']
News_url = 'http://jphao.jiupaicn.com/index.php?m=content&c=jiupaihao&a=article&' + '&id=' + n['id'] + '&memberId=' + n['memberId']
print(title,name,News_url)
OK,大功告成,和头条不一样的是,九派新闻URL有所改变,是id + numberId 组成,只需要在最后修改下就可以了,但是只能爬取十多条。慢慢学,慢慢来吧。
至于为什么要爬取九派,哼哼,,,
免费爬虫视频获取: 关注公众号,“Python爱好者社区”,回复“爬虫”即可获取。
为大家提供与Python相关的最新技术和资讯。
长按指纹 > 识别图中二维码 > 添加关注