查看原文
其他

第三次课上完三个班,决定加入模拟度娘爬取图片并存储的拓展任务

陈鸥辉 信息科技时代 2024-03-15

    2024年上学期|第三次课--图像数据的爬取与编码

    今天上午上第一个班,发现第四题不太合适,于是换了题目:

    下午上完三个班,决定加入拓展任务:

    由于教室到机房有一定的距离,所以每次上课原本有40分钟,但是实际上课时间只有35分钟左右,再加上上课前要处理新加入的学生及迟到学生人数清点等问题,所以上到课堂小测刚好上完。

    加入拓展任务,是觉得我们在实际找图的过程当中,更习惯搜图再保存,所以将程序加入可以让感兴趣的学生自行体验感觉爬虫技术的强大之处。学习,首先是激发兴趣嘛,既然编程技能势必会越来越简单,那么体验技术本身的强大激发兴趣,是一个必经的过程。

# -*- coding:utf8 -*-import requestsimport jsonfrom urllib import parseimport osimport time
class BaiduImageSpider(object): def __init__(self): self.json_count = 0 # 请求到的json文件数量(一个json文件包含30个图像文件) self.url = 'https://image.baidu.com/search/acjson?tn=resultjson_com&logid=5179920884740494226&ipn=rj&ct' \ '=201326592&is=&fp=result&queryWord={' \ '}&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&hd=&latest=&copyright=&word={' \ '}&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&expermode=&nojc=&pn={' \ '}&rn=30&gsm=1e&1635054081427= ' self.directory = r"{}" # 存储目录 这里需要修改为自己希望保存的目录 {}不要丢 self.header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/95.0.4638.54 Safari/537.36 Edg/95.0.1020.30 ' }
# 创建存储文件夹 def create_directory(self, name): self.directory = self.directory.format(name) # 如果目录不存在则创建 if not os.path.exists(self.directory): os.makedirs(self.directory) self.directory += r'\{}'
# 获取图像链接 def get_image_link(self, url): list_image_link = [] strhtml = requests.get(url, headers=self.header) # Get方式获取网页数据 jsonInfo = json.loads(strhtml.text) for index in range(30): list_image_link.append(jsonInfo['data'][index]['thumbURL']) return list_image_link
# 下载图片 def save_image(self, img_link, filename): res = requests.get(img_link, headers=self.header) if res.status_code == 404: print(f"图片{img_link}下载出错------->") with open(filename, "wb") as f: f.write(res.content) print("存储路径:" + filename)
# 入口函数 def run(self): searchName = input("输入想爬取的图片名称:") searchName_parse = parse.quote(searchName) # 编码
self.create_directory(searchName)
pic_number = 0 # 图像数量 for index in range(self.json_count): pn = (index+1)*30 request_url = self.url.format(searchName_parse, searchName_parse, str(pn)) list_image_link = self.get_image_link(request_url) for link in list_image_link: pic_number += 1 self.save_image(link, self.directory.format(str(pic_number)+'.jpg')) time.sleep(0.2) # 休眠0.2秒,防止封ip print(searchName+"----图像下载完成--------->")
if __name__ == '__main__': spider = BaiduImageSpider() spider.json_count = 2 # 定义下载2组图像,也就是60张    spider.run()

    有人说:学习编程首先就得学基础语法,要将地基打牢。其实哪有什么地基?技术本身就是用来解决问题的工具,你编程语法学得再牢,就算写个快排都会整死一大片学生,学个一年能自己将快排打出来的学生或老师又有多少?有个同行特别崇尚一万小时定律,所以认为基础教育重点在于反复的肌肉训练。可是却没有想明白:一万小时定律并不是针对基础教育的,而实际上专业学习要成为专业领域的专业人才,恰恰是要舍弃其他领域的专业学习的,而且能够达到这一水平的又是专业领域的极少数人而已。大多数的我们,既没有对应的时间成本,也没有对应的学习兴趣,对于大多数人会不会自己写会越来越不重要,只要能够拿起来用就好,所以技术的平权才成为了必然的趋势。而要想成为专业领域人才的那一小撮有天赋的有兴趣的孩子,再就按一万小时定律去努力培养吧~

    单击“阅读原文”,可以查看程序参考来源。

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存