【视频】快来get新技能--抓包+cookie,爬微博不再是梦

原创 2017-03-21 大邓大邓带你玩python

你不一定要点蓝字关注我的

来自大邓的心声

请输入标题 bcdef

说案例前先诉诉苦，大邓带你玩转python公号是大邓一人运营，大邓一个人身兼数职。从内容的idea，写代码，调试，录制视频，上传视频，写文章，粘贴图片，编辑排版（之前的公号，排版不美观，最近学了排版，好看多了，但也特费时间），而且要同步到简书，知乎。

一整套下来，差不多要十个小时的样子，以后我可能会降低实战案例创作的频率，临近研三，时间变得紧张，但我至少会保持在一周一次实战内容的发布。

希望大家能体谅，不要因此而取消关注。你们的支持，就是我最大的动力，真心话！！

请输入标题 abcdefg

回归正题

今天给大家录制了一个爬新浪微博的爬虫，也用到了抓包分析网址，但相较于以前，单纯的使用抓包分析网址在新浪微博是无效的。

抓到的response内容都是乱码，本文中将要用到新技巧-cookie。

请输入标题 bcdef

cookie是什么

某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据（通常经过加密）。

目前有些 Cookie 是临时的，有些则是持续的。临时的 Cookie 只在浏览器上保存一段规定的时间，一旦超过规定的时间，该 Cookie 就会被系统清除。

持续的 Cookie 则保存在用户的 Cookie 文件中，下一次用户返回时，仍然可以对它进行调用。

注意：

微博中的cookie有时间限制，如果运行有问题，可以更换下cookie

如何使用cookie

请输入标题 bcdef

Cookie = {‘Cookie’: ’UM_distinctid=15ab64ecfd6592-0afad5b368bd69-1d3b6853-13c680-15ab64ecfd7b6; remember_user_token=W1sxMjEzMTM3XSwiJDJhJDEwJHhjYklYOGl2eTQ0Yi54WC5seVh2UWUiLCIxNDg5ODI2OTgwLjg4ODQyODciXQ%3D%3D---ac835770a030c0595b2993289e39c37d82ea27e2; CNZZDATA1258679142=559069578-1488626597-https%253A%252F%252Fwww.baidu.com%252F%7C1489923851’}

我们要构造成字典格式，如上。这样应用到请求网址的时候添加到请求头中去即可（不懂也没关系，继续往下看，有视频讲说的）。

请输入标题 abcdefg

requests库

请输入标题 bcdef

Requests is an elegant and simple HTTP library for Python, built for human beings. Requests是一个优雅简洁的Python HTTP库，给人类使用。

使用方法如下

r = requests.get(url,cookiess = Cookie)

请输入标题 abcdefg

实战分析

请输入标题 bcdef

那么我们打开开发者工具，抓包分析下网址验证我们的网址规律思路

抓包分析

请输入标题 bcdef

接下来我只是测试下，抓孔庆东微博博文的标题，如下图红色方框对应的html标签是h4

请输入标题 abcdefg

代码及运行图部分

支持

一下

请输入标题 bcdef

利用每一份珍贵的时间用来学习吧，未来会因之前的努力而精彩。

如果你认可我，可以让大邓知道开心一下（无所谓多少，只要有心就好）。

请输入标题 abcdefg

每次听到震动

都让我更加坚定

坚持

写下去的动力

希望更多的人因我学会python

尊敬的称呼一声大邓老师

大邓真心高兴😄

大邓带你玩转python

一起分享数据科学的点滴

微信公众号ID ： shuxierenshengba

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！