Python|任意网页中的所有网址的保存

Original 陈鸥辉信息科技时代 2024-03-15

参考程序：

import requests
from bs4 import BeautifulSoup
import pandas as pd
url = 'https://movie.douban.com/chart' # 设置爬取网址
hd = {"User-agent": "*"} # 设置请求方式
r = requests.get(url,headers=hd)
r.encoding = 'utf-8' # r.apparent_encoding设置网页字符编码方式
soup = BeautifulSoup(r.content, 'html.parser')
print('网页标题：',soup.title.text)# 输出title标签的内容
#排行榜信息
hurl=soup.select('a')#如何获取超链接的网页标记语言？自己补充
hurls=[]
for x in hurl:
#请参考清洗图片的代码完成网页超链接的清洗
htmlurl=x.attrs['href']
hurls.append(htmlurl)#要存储的所有的超链接
print(hurls)
print('网页链接清洗完成')
df=pd.DataFrame({'网址':hurls})
df.to_csv('豆瓣的网址.csv',index=0)
#作业提交：豆瓣的排行榜.py 豆瓣的网址.py
#拓展作业：自己爬一部小说.py 自己爬一个网页的图片.py
#ftp://172.16.20.46 用户名密码：2019

继续滑动看下一个

信息科技时代

向上滑动看下一个

一把短刀，怎么就让他连捅18人？！

这次我怀疑邱成桐已经“学阀化”了

13岁工作的常务副县长，接连缺席官方活动

内塔尼亚胡喊话伊朗人民：我们是一伙的，哈梅内伊政权才是敌人

内塔尼亚胡喊话伊朗人民：我们是一伙的，哈梅内伊政权才是敌人

Python|任意网页中的所有网址的保存

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

这次我怀疑邱成桐已经“学阀化”了

13岁工作的常务副县长，接连缺席官方活动

内塔尼亚胡喊话伊朗人民：我们是一伙的，哈梅内伊政权才是敌人

内塔尼亚胡喊话伊朗人民：我们是一伙的，哈梅内伊政权才是敌人

生成图片，分享到微信朋友圈

Python|任意网页中的所有网址的保存

您可能也对以下帖子感兴趣