查看原文
其他

关于爬虫中遇到的各种问题的解决

陈鸥辉 信息科技时代 2024-03-15




    上图是我今天晚上在备课的时候遇到问题并解决的一个爬虫问题,就是在爬取红楼梦的时候发现网页文本的编码方式不是utf-8时出现了乱码,所以只好求助于度娘,最后发现加decode(r.apparent_encoding,errors='ignore')可以解决乱码问题。

    第九次课,我主要跟学生讲解了文本、图像以及网页链接的清洗方式,结果发现学生在学完这个知识点后几乎不具备迁移的能力。主要原因是学生的编程基础实在是太菜了,我估计可能大部分学生并没有真正理解代码的含义,尤其是网页源代码,再加上新的各种库文件的用法,所以消化理解还是需要时间的。在没有消化的前提下,要学生真正学会知识迁移,将所学应用到实践中去,显然是不现实的。

    在今天上午的2004班上课时,因为有一位学生兴趣特别大,问题特别多,所以给学生演示了换一个网址如何获取文本及图片,发现不同网页的网页源代码差别还比较大,在下午的2005班我就完全不敢演示这个迁移了,因为孩子们显然都懵懵懂懂的,O(∩_∩)O哈哈~,那种上课感觉还是蛮尬的。比如在2004班换个网页进行图片下载演示时,发现获取到的一些图片地址没有https:需要添加上去,这个知识点没有一定的字符串基础压根就不知道怎么搞,在2004班将其他网站的图片下载都讲完了,主要归因于学生的主动要求出现的问题完全是我没有预知的,我才知道爬虫并不是这么容易迁移的事情,看一个案例只懂一种方式,而要通过看一个案例迁移知道各种类似的方式必须要有一定的编程功底,才能够很快找到解决问题的方法。

    其实我也是一边教一边在学,只是大数据的这些内容还只能定位为体验层次,已经上过的四个班的作业我都看过了,都只能达到跟着我打一遍代码,然后用我提供的唯一方法爬取数据,我没有在作业中看到明显的迁移效果。

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存