查看原文
其他

【视频】快来get新技能--抓包+cookie,爬微博不再是梦

2017-03-21 大邓 大邓带你玩python

你不一定要点蓝字关注我的


来自大邓的心声

请输入标题     bcdef

       说案例前先诉诉苦,大邓带你玩转python公号是大邓一人运营,大邓一个人身兼数职。          从内容的idea,写代码,调试,录制视频,上传视频,写文章,粘贴图片,编辑排版(之前的公号,排版不美观,最近学了排版,好看多了,但也特费时间),而且要同步到简书,知乎。

       一整套下来,差不多要十个小时的样子,以后我可能会降低实战案例创作的频率,临近研三,时间变得紧张,但我至少会保持在一周一次实战内容的发布。

      希望大家能体谅,不要因此而取消关注。你们的支持,就是我最大的动力,真心话!!


请输入标题     abcdefg

      

回归正题



      今天给大家录制了一个爬新浪微博的爬虫,也用到了抓包分析网址,但相较于以前,单纯的使用抓包分析网址在新浪微博是无效的。

      抓到的response内容都是乱码,本文中将要用到新技巧-cookie。

请输入标题     bcdef

cookie是什么

      某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常经过加密)。

      目前有些 Cookie 是临时的,有些则是持续的。临时的 Cookie 只在浏览器上保存一段规定的时间,一旦超过规定的时间,该 Cookie 就会被系统清除。

      持续的 Cookie 则保存在用户的 Cookie 文件中,下一次用户返回时,仍然可以对它进行调用。


注意:

微博中的cookie有时间限制,如果运行有问题,可以更换下cookie


如何使用cookie

请输入标题     bcdef

Cookie = {‘Cookie’:   ’UM_distinctid=15ab64ecfd6592-0afad5b368bd69-1d3b6853-13c680-15ab64ecfd7b6; remember_user_token=W1sxMjEzMTM3XSwiJDJhJDEwJHhjYklYOGl2eTQ0Yi54WC5seVh2UWUiLCIxNDg5ODI2OTgwLjg4ODQyODciXQ%3D%3D---ac835770a030c0595b2993289e39c37d82ea27e2; CNZZDATA1258679142=559069578-1488626597-https%253A%252F%252Fwww.baidu.com%252F%7C1489923851’}

      我们要构造成字典格式,如上。这样应用到请求网址的时候添加到请求头中去即可(不懂也没关系,继续往下看,有视频讲说的)。

请输入标题     abcdefg

requests库

请输入标题     bcdef

 Requests  is  an  elegant  and  simple  HTTP  library  for Python,  built  for  human  beings.  Requests是一个优雅简洁的Python HTTP库,给人类使用。


使用方法如下

r  = requests.get(url,cookiess = Cookie)

请输入标题     abcdefg

实战分析

请输入标题     bcdef

       那么我们打开开发者工具,抓包分析下网址验证我们的网址规律思路


抓包分析

请输入标题     bcdef

接下来我只是测试下,抓孔庆东微博博文的标题,如下图红色方框对应的html标签是h4

请输入标题     abcdefg

代码及运行图部分

支持

一下

请输入标题     bcdef

利用每一份珍贵的时间用来学习吧,未来会因之前的努力而精彩。


如果你认可我,可以让大邓知道开心一下(无所谓多少,只要有心就好)。


请输入标题     abcdefg

每次听到震动

都让我更加坚定

坚持

写下去的动力

希望更多的人因我学会python

尊敬的称呼一声大邓老师

大邓真心高兴😄


大邓带你玩转python

一起分享数据科学的点滴

微信公众号ID : shuxierenshengba


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存