查看原文
其他

我的爬虫课,能抓到副业赚钱​信息吗?

明白 晚九点半睡觉 多元思维Hack 2022-11-27

这几天,有不少朋友留言,问了一些关于爬虫课的问题。


本来我打算,今天这篇文章,把所有问题,统一回答一下。


但写着写着,发现问题太多了,一下写不完。而且有的问题,比较复杂。


那就拆开来写,今天写看一个问题 ——


爬虫课可以抓 XX 吗?



这个问题出现次数最多。

比如 ——

  • 能抓小红书吗?

  • 能抓抖音吗?

  • 能抓今日头条吗?

  • 能抓到副业赚钱信息吗?

  • ……


可能大家觉得,这是一个简单问题,答案会是一个确定的「是」,或者「否」。


也就是,能抓,还是不能抓。

但其实,这是一个复杂问题,答案取决于很多因素 ——


1 网站是否允许抓取?

有些网站,是能抓取的。
有些网站,是不允许抓取的。

爬虫,只能抓取前者,抓不了后者。

因为用爬虫抓取某个网站,会消耗网站的流量成本。所以,有些网站会设置一些反爬虫机制,一旦检测到我们在使用爬虫,就会让你遇到「意外」,比如 ——

  • 隔一会,就需要输入验证码,才能继续

  • 数据显示不限

  • 数据显示乱码

  • 限制登录

  • 封掉账号

  • ……


这些,都属于反爬虫机制。

遇到这种网站,就没法抓取。

那,
哪些网站有反爬虫?
哪些网站没有?

答案是:绝大部分网站,都没有反爬虫。

因为设置反爬虫,也需要成本。所以,除了一些大网站,其他绝大多数网站,都没有反爬虫。

那,这是不是就代表:绝大多数网站,都是可以抓取的?

不是,还要看另一个影响因素 ——


 2 个人能力是否足够?

就是,你的爬虫水平,是否足够熟练?

比如,一个正常的网站,我技术比较熟练,就更可能抓成功。

一个没学过爬虫的人,肯定抓不了。

一个刚买了课,听了一遍,但没练习过的人,肯定抓不了。

一个买了课,听了 3 遍,练习了 5 次的人,就更可能抓成功。

所以,从这个角度上看,「能不能抓 XX 网站」,结果取决于你,而不是我。

取决于你是否认真听课,以及是否做了大量练习。

因为爬虫是一个技能。
而掌握任何一个技能,都只有一个路径:熟能生巧。

买完课程,只是看一遍,但不多练习,肯定是抓不了任何网站的。


总体来说,如果你要抓取的信息,在电脑网页上,能用眼睛看到,它就大概率能抓到。

什么就能用眼睛看到?

比如,你要抓知乎一个作者,张三的文章信息,包括每篇文章的标题、链接、评论数、点赞数。

而这个文章页面,也能「用眼睛」看到这个几个信息 ——


那就可以抓取。

反之,有人说 ——

  • 我想抓同行的电话号码。

  • 我想抓客户微信号。

  • 我想抓房东电话。


这种,你需要自己去看看,网页上有没有这些信息。

如果有,才能抓。
如果没有,就不能抓。

那有同学会问:我要去哪个网页上看,有没有这些信息啊?

嗯,这个问题,答案也在你身上。

改天再详细介绍。


那,是不是有反爬虫的网站,就一定不能抓取呢?

不一定。

有反爬虫,只能说明,抓取比较困难,或者不能完全自动化,但可以半自动化,或者 60% 、70% 自动化。反正,肯定比手动,要提高 10 几倍效率吧。

这个,课程里有一节,就是专门讲这个的。

今天先介绍这些,大家有问题,可以留言,我改天再写一篇文章。



嗯,
圣诞快乐,
保持好心情哇~






·······END·······

推荐阅读
我花了 5 年时间,做了这门课程!




都看到这里了,你不关注一下嘛👇👇👇,我每天都更新哇,不更不是人!





今天是持续写作第 554/600 天。
今天是晚 9 点半睡觉,早 5 点起床写作第 454 天。



如果你的朋友也对爬虫感兴趣,
欢迎转发分享给 TA,
感谢你的慷慨~


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存