Python|文本数据的爬取与清洗

Original 陈鸥辉信息科技时代 2024-03-15

参考代码：

import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/chart' # 设置爬取网址
hd = {"User-agent": "*"} # 设置请求方式
r = requests.get(url,headers=hd)
r.encoding = 'utf-8' # r.apparent_encoding设置网页字符编码方式
soup = BeautifulSoup(r.content, 'html.parser')
print('网页标题：',soup.title.text)# 输出title标签的内容
#排行榜信息
name=soup.select('td>div>a')#电影名
#请同学们补充上映时间与豆瓣评分
time=soup.select('td>div>p')
score=soup.select('td>div>div>span')
for i in range(len(name)):
print(name[i].text.replace(' ','').replace('\n','')) # 输出电影名
# 输出上映时间
print(time[i].text)
# 输出豆瓣评分
print(score[3*i+1].text,score[3*i+2].text)
with open('douban.txt', 'w', encoding='utf-8')as f: # 保存到记事本文件中
f.write(soup.title.text)
#将爬取的数据存入记事本douban.txt
for i in range(len(name)):
f.write(name[i].text.replace(' ', '').replace('\n', '')+'\n') # 输出电影名
f.write(time[i].text+'\n')# 输出上映时间
f.write(score[3*i+1].text+score[3*i+2].text+'\n'+'\n')# 输出豆瓣评分
#ftp://172.16.20.46 用户密码：2019 拓展：自己去下载一部小说清洗提交

继续滑动看下一个

信息科技时代

向上滑动看下一个

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

泪目！8死17伤！江苏一职校持刀伤人案，背后隐情令人心惊！

突发！宜兴一学校发生持刀伤人案件！致8死17伤！太恶劣了！

一小学门口突发！多名学生被撞伤！

“占坑式辩护”，侵犯了谁？

Python|文本数据的爬取与清洗

您可能也对以下帖子感兴趣

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

泪目！8死17伤！江苏一职校持刀伤人案，背后隐情令人心惊！

突发！宜兴一学校发生持刀伤人案件！致8死17伤！太恶劣了！

一小学门口突发！多名学生被撞伤！

“占坑式辩护”，侵犯了谁？

生成图片，分享到微信朋友圈

Python|文本数据的爬取与清洗

您可能也对以下帖子感兴趣