有关webscraper的一些问题
《不用写代码的爬虫课》发布后,有不少朋友来找我抓数据,但是有的朋友对于爬虫不了解,所以造成交流不畅。这篇文章就是分享一些爬虫的基础信息。
这篇文章只针对 web scraper
一、爬虫是什么?
爬虫,通俗一点讲,就是让程序帮你统计网页上的数据。
比如,你要统计一个公众号的所以文章标题,如果有 500 篇文章,你手动复制粘贴到 excel 里面,一个标题 10 秒,大概需要1 个多小时。
但是如果会爬虫的话,你只需要设置一下抓取规则,然后程序会帮你抓,大概 1 分钟左右就能做完。如果数据量大,可能需要时间更长一些。
二、爬虫不是什么?
爬虫只能抓 网页上眼睛能看到的信息(这里指的是 webscraper 的范围)。
爬虫没有搜索功能,没有语言功能,没有数据分析功能,也没有求和功能,也没有排序功能。这些操作可以放到抓取后的 excel 里面操作。
三、怎么确定自己要抓的东西爬虫能完成?
注意:这里只针对《不用写代码的爬虫课》
如果你要抓一个东西
你必须提供一个 网址(也可以叫链接、或者 URL)。
例如:http://www.zsxq100.com/
你需要在浏览器的地址栏里访问这个页面,看一下,你要抓取的信息,能不能用眼睛看到。
如果能看到,那就能抓,如果看不到,那就抓不了。
四、某某网站能抓不?
看第三点。
五、某某 APP 能抓捕?
自己搜索一下,这个 APP 有没有网页版。
如果有,返回看第三点。
六、用 webscraper 抓数据,需要翻墙不?
抓数据需不需要翻墙,取决于你要抓的网站,需不需要翻墙。
如果你访问的网站,需要fq才能看到内容,那么抓取的时候也就需要fq。反之不用。
比如,抓 Facebook:因为访问Facebook本身就需要fq,所以你抓的时候也需要打开fq软件。
比如,抓知乎:因为访问知乎本身不需要fq,所以你抓的时候也不需要fq。
另:webscraper 安装的话,可以不用翻墙,课程里有讲不用翻墙的安装方法。
七、只能用谷歌浏览器吗?
对,我只对谷歌浏览器负责。
虽然有的其他浏览器(QQ浏览器,360浏览器)也能运行 web scraper,但是在我测试过程中,会有一些兼容性问题,会出现一些莫名其妙的错误。
必经不是原生版,出了问题很难分析。
八、能抓微信号、手机号码?
参看 第三点。
九、学了这个能抓 某某网站吗?
一句话,网页上能看到的信息,99% 都能抓到。
我不会说那种绝对正确、类似能抓取一切的话,事实上,即使你找一个顶尖的爬虫工程师,他也不敢保证,所有的信息都能抓取。
九、如果要别人帮忙抓取数据,你需要提供的信息
必须提供详细信息,否则不予理会
1、要抓取的网址链接。为什么要提供这个,参看第三点。
2、要抓取的信息字段,为了不产生歧义,需要截图标注清楚
3、如果有多页,要说明抓多少页
举例——
需求概述:小明要抓取淘宝上关于酸奶的商品信息。
需要提供:
网站链接 —— 如何获取?进入淘宝 www.taobao.com,然后搜索“酸奶”,出现的这个链接,就是爬虫需要的链接,结果链接如下:
https://s.taobao.com/search?q=%E9%85%B8%E5%A5%B6&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306
需要抓取这个页面的所有商品,每个商品需要抓取的信息:
产品名称
价格
购买人数
具体截图如下:
搜索结果一共有 100页,只需要抓取前 5 页即可。
ps:上面是个例子,具体情况,可以根据需求改变。比如抓取的字段不同,或者抓取页数不一样等
十、抓取过程中遇到问题,该怎么解决?
课程里面不仅讲了如何抓取,也讲了遇到问题的分析,以及解决思路。
遇到问题,先根据课程里讲的步骤分析,基本是能解决问题的。
十一、为什么我抓亚马逊出错了?
我在课程里讲第一个例子的时候,就强调了一个重要点:
先不要抓课程之外的网站,等到把课程里的例子,全部练到不用看教程就能抓取成功的熟练程度,再去抓课程之外的网站
不是我故意为难大家,也不是故作高深。
爬虫课,我是按照由浅极深的顺序讲的,每一节的难度都是慢慢增加,每一节都是针对抓取不同类型的数据,也就是课程里的例子全部练熟,就相当于全网的数据类型,你都可以在这里按照方法参照抓取。
每一节课程里的例子,都是我专门挑选的,是这个类别里面最简单的网站。
为什么要挑最简单的,因为大家都是初学 web scraper,如果一开始就选比较复杂的网站,这样抓起来容易出错,出错的话,人的情绪能会受挫。
等到简单的例子熟练了,后面学习复杂的例子,就会得心应手。
我自己听过 xdite 老师的元学习课,所以在「教」方面,有些心得:人在学习新知识的时候,正反馈是很重要的,还有其他一些小技巧,这里不再赘述。
十二、我的一点个人经验
学习“技能型”知识的时候,比如webscraper,不要想着练习一次就能学好,学精。
学习任何技能都会有一个从笨拙到熟练的过程,一开始这错那错,都很正常,这是每个人的必经之路。
那些熟练操作的人,都是经过了千万次练习。
如果错了,也不要慌,删掉这个 Sitemap,仔细按照步骤,重新开始。
第一遍如果成功,你就会对整体有个了解,再练习第二遍,就算是同一个例子,你也需要多练习几次。
不要着急,慢就是快,慢就是快。
十三、为什么要学习 web scraper ?
如果让我来分享为什么要学习 web scraper,我想会有 2 个原因。
1、锻炼逻辑、分析问题的能力
我以前写过一篇文章 没事别想不开去学编程,里面的其他观点我不再赘述,其中有一点:如果你只是想锻炼技术思维,学别的东西也可以锻炼。
我当时写文章的时候,没有想好合适的例子。
这几天,我就突然想到,爬虫课就是一个很好锻炼逻辑能力,锻炼分析问题的能力。
web scraper 是个程序封装的工具,使用的时候,每个步骤都必须很精确。
如何确定要抓取的网页用什么选择器?
如何确定网页上的哪些信息是同一个类型?
遇到问题,如何采用「控制变量法」分析原因,找到解决方案?
这些分析问题的能力,不只能用在抓取数据,也可以通用到任何其他领域。
不要把爬虫课只当成爬虫课来学。
2、增加一个维度竞争力
你有没有过这种经历,一个你很仰慕的大佬,在朋友圈发了一个状态,寻求某种帮助,而你刚刚好能提供这种帮助,因此和大佬有了交集,之后大佬如果有一些有料的信息,也会告诉你……
如果你掌握了一门大多数人不会的技能,就会给你增加一个很大的竞争力。
我不是说只有 web scraper 可以,写文案、PS、营销、设计等等都是。
相比较而言,学 web scraper 性价比最高 ——
会的人少:稀缺度决定价值
学习成本小:容易掌握
点到为止,不再多说,愿者上钩。
十四、什么人不适合学?
觉得看一遍就行,不想练习的人
不按照教程走,跳着看的人
课程里讲过的东西,群里不再答疑,不能接受的人
不喜欢思考,只喜欢提问的人
十五、为啥私信不回我
如果有问题,可以现在群里交流,帮你解决疑惑的同时,也可以让其他人受益,否则请先发红包。
十六、还有什么要说的吗?
这不是一篇课程宣传文章,那些煽动情绪,说明课程利益点的文案,这里没有。我连爬虫课的入口都不放出来。因为找到课程入口本身,就是一道门槛。
无码科技团队发布了一款 Chrome 扩展工具。这个工具用于帮助商家快速发现自己产品介绍里的广告违禁词,已兼容最新版广告法。
检查商品描述中可能违反广告法,或可能导致审核不通过的违禁词和高风险词,且支持图片文字识别。
这是我检测这篇文章的结果:
插件安装需要科学上网,如果无法科学上网,可以后台回复“无码科技”,下载安装包。然后打开浏览器进入:chrome://extensions/页面,把安装包拖进去,拖进去,拖进去,不是双击
如果你觉得学习文章有帮助,可以分享给朋友。
感谢~~~
延伸阅读: