其他
春节假期临近,来爬爬豆瓣看看有什么好剧
The following article is from 功夫计量经济学 Author 江河JH
分析部分
代码部分
import requests
import json
from lxml import etree
import time
url = 'https://movie.douban.com/j/search_subjects?'
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.204 Safari/537.36',
'Cookie': '请复制你的cookie到这里就好'
}
for i in range(0,200,20):
params = {
'type': 'tv',
'tag': '国产剧',
'sort': 'rank',
'page_limit': '20',
'page_start': i,
}
response = requests.get(url,params=params,headers=headers).text
datas = json.loads(response)
for data in datas['subjects']:
title = data['title'] #剧名
rate = data['rate'] #豆瓣评分
page_url = data['url'] #详情页url
# print(title,rate,page_url)
try:
response2 = requests.get(page_url,headers=headers).text
html = etree.HTML(response2)
director = "、".join(html.xpath('//div[@id="info"]/span[1]/span[2]/a/text()')) #导演
screenwriter = "、".join(html.xpath('//div[@id="info"]/span[2]/span[2]/a/text()')) #编剧
actor = "、".join(html.xpath('//div[@id="info"]/span[3]/span[2]/a/text()')[:5]) #主演
form = "、".join(html.xpath('//div[@id="info"]/span[@property="v:genre"]/text()')) #类型
date = "".join(html.xpath('//div[@id="info"]/span[@property="v:initialReleaseDate"]/text()')) #上映时间
print(title,rate,director,screenwriter,actor,form,date)
with open(r'D:\爬虫下载\豆瓣电视剧.csv', 'a') as fp:
fp.write('%s,%s,%s,%s,%s,%s,%s\t\n' % (title,rate,director,screenwriter,actor,form,date))
except:
pass
time.sleep(5)
特别说明:
在此提醒一下大家,大家如果是学习爬虫的话,建议就爬取个几页就行了,并且休息时间设长一点,这样不会对别人服务器造成压力,我们要做有道德的爬虫er!
本推文提供的代码仅供大家学习爬虫之用,请勿使用该代码攻击人家网站,这是不道德的行为!
推荐部分
剧名 | 豆瓣评分 | 导演 | 主演 | 上映时间 |
---|---|---|---|---|
红楼梦 | 9.6 | 王扶林 | 欧阳奋强、陈晓旭、邓婕 | 1987 |
父母爱情 | 9.5 | 孔笙 | 郭涛、梅婷、王菁华 | 2014 |
琅琊榜 | 9.4 | 孔笙、李雪 | 胡歌、刘涛、王凯 | 2015 |
潜伏 | 9.4 | 姜伟、付玮 | 孙红雷、姚晨、沈傲君 | 2009 |
大宋提刑官 | 9.3 | 阚卫平 | 何冰、罗海琼、谢兰 | 2005 |
沉默的真相 | 9.2 | 陈奕甫 | 廖凡、白宇、谭卓 | 2020 |
闯关东 | 9.2 | 张新建、孔笙 | 李幼斌、萨日娜、宋佳 | 2008 |
我们的法兰西岁月 | 9.2 | 康洪雷 | 朱亚文、钟秋、李艺科 | 2012 |
人间正道是沧桑 | 9.1 | 张黎 | 孙红雷、黄志忠、吕中 | 2009 |
战长沙 | 9.1 | 孔笙、张开宙 | 霍建华、杨紫、左小青 | 2014 |
白夜追凶 | 9.0 | 王伟 | 潘粤明、王泷正、梁缘 | 2017 |
隐秘的角落 | 8.9 | 辛爽 | 秦昊、王景春、荣梓杉 | 2020 |
遇见王沥川 | 8.9 | 陈铭章 | 高以翔、焦俊艳、连凯 | 2016 |
大江大河 | 8.8 | 孔笙、黄伟 | 王凯、杨烁、董子健 | 2018 |
风筝 | 8.8 | 柳云龙 | 柳云龙、罗海琼、李小冉 | 2017 |
恰同学少年 | 8.8 | 龚若飞、嘉娜·沙哈提 | 谷智鑫、钱枫、徐亮 | 2007 |
模糊匹配我只用这一招!
利用tushare获取财务数据
爬虫实战|Selenium爬取微信公众号标题与链接
强大的正则表达式
自动群发邮件(二)——附带附件
自动群发邮件--email和smtplib基本模块的使用
计算工作日的小能手——workdays
Seminar | 企业错报与银行贷款合同
小贴士:Markdown的基本语法
听说相貌也能量化 | 调用百度人脸检测API实现颜值打分
列出指定属性的变量|findname命令比ds命令
Json文件好帮手——JsonPath
pyecharts绘图——河流图展示
你知道MDPI期刊的热门题目吗?
微信公众号“Stata and Python数据分析”分享实用的stata、python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。