查看原文
其他

有关webscraper的一些问题

明白1 多元思维Hack 2020-10-06

《不用写代码的爬虫课》发布后,有不少朋友来找我抓数据,但是有的朋友对于爬虫不了解,所以造成交流不畅。这篇文章就是分享一些爬虫的基础信息。

这篇文章只针对 web scraper

一、爬虫是什么?

爬虫,通俗一点讲,就是让程序帮你统计网页上的数据。

比如,你要统计一个公众号的所以文章标题,如果有 500 篇文章,你手动复制粘贴到 excel 里面,一个标题 10 秒,大概需要1 个多小时。

但是如果会爬虫的话,你只需要设置一下抓取规则,然后程序会帮你抓,大概 1 分钟左右就能做完。如果数据量大,可能需要时间更长一些。

二、爬虫不是什么?

爬虫只能抓 网页上眼睛能看到的信息(这里指的是 webscraper 的范围)。

爬虫没有搜索功能,没有语言功能,没有数据分析功能,也没有求和功能,也没有排序功能。这些操作可以放到抓取后的 excel 里面操作。

三、怎么确定自己要抓的东西爬虫能完成?

注意:这里只针对《不用写代码的爬虫课》

如果你要抓一个东西

  1. 你必须提供一个 网址(也可以叫链接、或者 URL)。

例如:http://www.zsxq100.com/

  1. 你需要在浏览器的地址栏里访问这个页面,看一下,你要抓取的信息,能不能用眼睛看到。

如果能看到,那就能抓,如果看不到,那就抓不了。

四、某某网站能抓不?

看第三点。

五、某某 APP 能抓捕?

自己搜索一下,这个 APP 有没有网页版。

如果有,返回看第三点。

六、用 webscraper 抓数据,需要翻墙不?

抓数据需不需要翻墙,取决于你要抓的网站,需不需要翻墙。

如果你访问的网站,需要fq才能看到内容,那么抓取的时候也就需要fq。反之不用。

比如,抓 Facebook:因为访问Facebook本身就需要fq,所以你抓的时候也需要打开fq软件。

比如,抓知乎:因为访问知乎本身不需要fq,所以你抓的时候也不需要fq。

另:webscraper 安装的话,可以不用翻墙,课程里有讲不用翻墙的安装方法。

七、只能用谷歌浏览器吗?

对,我只对谷歌浏览器负责。

虽然有的其他浏览器(QQ浏览器,360浏览器)也能运行 web scraper,但是在我测试过程中,会有一些兼容性问题,会出现一些莫名其妙的错误。

必经不是原生版,出了问题很难分析。

八、能抓微信号、手机号码?

参看 第三点。

九、学了这个能抓 某某网站吗?

一句话,网页上能看到的信息,99% 都能抓到。

我不会说那种绝对正确、类似能抓取一切的话,事实上,即使你找一个顶尖的爬虫工程师,他也不敢保证,所有的信息都能抓取。

九、如果要别人帮忙抓取数据,你需要提供的信息

必须提供详细信息,否则不予理会

1、要抓取的网址链接。为什么要提供这个,参看第三点。
2、要抓取的信息字段,为了不产生歧义,需要截图标注清楚
3、如果有多页,要说明抓多少页

举例——
需求概述:小明要抓取淘宝上关于酸奶的商品信息。
需要提供:

  1. 网站链接 —— 如何获取?进入淘宝 www.taobao.com,然后搜索“酸奶”,出现的这个链接,就是爬虫需要的链接,结果链接如下:
    https://s.taobao.com/search?q=%E9%85%B8%E5%A5%B6&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306

image.png
  1. 需要抓取这个页面的所有商品,每个商品需要抓取的信息:

  • 产品名称

  • 价格

  • 购买人数

具体截图如下:

image.png
  1. 搜索结果一共有 100页,只需要抓取前 5 页即可。

image.png

ps:上面是个例子,具体情况,可以根据需求改变。比如抓取的字段不同,或者抓取页数不一样等

十、抓取过程中遇到问题,该怎么解决?

课程里面不仅讲了如何抓取,也讲了遇到问题的分析,以及解决思路。

遇到问题,先根据课程里讲的步骤分析,基本是能解决问题的。

十一、为什么我抓亚马逊出错了?

我在课程里讲第一个例子的时候,就强调了一个重要点:

先不要抓课程之外的网站,等到把课程里的例子,全部练到不用看教程就能抓取成功的熟练程度,再去抓课程之外的网站

不是我故意为难大家,也不是故作高深。

爬虫课,我是按照由浅极深的顺序讲的,每一节的难度都是慢慢增加,每一节都是针对抓取不同类型的数据,也就是课程里的例子全部练熟,就相当于全网的数据类型,你都可以在这里按照方法参照抓取。

每一节课程里的例子,都是我专门挑选的,是这个类别里面最简单的网站。

为什么要挑最简单的,因为大家都是初学 web scraper,如果一开始就选比较复杂的网站,这样抓起来容易出错,出错的话,人的情绪能会受挫。

等到简单的例子熟练了,后面学习复杂的例子,就会得心应手。

我自己听过 xdite 老师的元学习课,所以在「教」方面,有些心得:人在学习新知识的时候,正反馈是很重要的,还有其他一些小技巧,这里不再赘述。

十二、我的一点个人经验

学习“技能型”知识的时候,比如webscraper,不要想着练习一次就能学好,学精。

学习任何技能都会有一个从笨拙到熟练的过程,一开始这错那错,都很正常,这是每个人的必经之路。

那些熟练操作的人,都是经过了千万次练习。

如果错了,也不要慌,删掉这个 Sitemap,仔细按照步骤,重新开始。

第一遍如果成功,你就会对整体有个了解,再练习第二遍,就算是同一个例子,你也需要多练习几次。

不要着急,慢就是快,慢就是快。

十三、为什么要学习 web scraper ?

如果让我来分享为什么要学习 web scraper,我想会有 2 个原因。

1、锻炼逻辑、分析问题的能力

我以前写过一篇文章 没事别想不开去学编程,里面的其他观点我不再赘述,其中有一点:如果你只是想锻炼技术思维,学别的东西也可以锻炼。

我当时写文章的时候,没有想好合适的例子。

这几天,我就突然想到,爬虫课就是一个很好锻炼逻辑能力,锻炼分析问题的能力。

web scraper 是个程序封装的工具,使用的时候,每个步骤都必须很精确。

如何确定要抓取的网页用什么选择器?
如何确定网页上的哪些信息是同一个类型?
遇到问题,如何采用「控制变量法」分析原因,找到解决方案?

这些分析问题的能力,不只能用在抓取数据,也可以通用到任何其他领域。

不要把爬虫课只当成爬虫课来学。

2、增加一个维度竞争力

你有没有过这种经历,一个你很仰慕的大佬,在朋友圈发了一个状态,寻求某种帮助,而你刚刚好能提供这种帮助,因此和大佬有了交集,之后大佬如果有一些有料的信息,也会告诉你……

如果你掌握了一门大多数人不会的技能,就会给你增加一个很大的竞争力。

我不是说只有 web scraper 可以,写文案、PS、营销、设计等等都是。

相比较而言,学 web scraper 性价比最高 ——

  • 会的人少:稀缺度决定价值

  • 学习成本小:容易掌握

点到为止,不再多说,愿者上钩。

十四、什么人不适合学?

  • 觉得看一遍就行,不想练习的人

  • 不按照教程走,跳着看的人

  • 课程里讲过的东西,群里不再答疑,不能接受的人

  • 不喜欢思考,只喜欢提问的人

十五、为啥私信不回我

如果有问题,可以现在群里交流,帮你解决疑惑的同时,也可以让其他人受益,否则请先发红包。

十六、还有什么要说的吗?

这不是一篇课程宣传文章,那些煽动情绪,说明课程利益点的文案,这里没有。我连爬虫课的入口都不放出来。因为找到课程入口本身,就是一道门槛。


无码科技团队发布了一款 Chrome 扩展工具。这个工具用于帮助商家快速发现自己产品介绍里的广告违禁词,已兼容最新版广告法。


检查商品描述中可能违反广告法,或可能导致审核不通过的违禁词和高风险词,且支持图片文字识别。


这是我检测这篇文章的结果:


插件安装需要科学上网,如果无法科学上网,可以后台回复“无码科技”,下载安装包。然后打开浏览器进入:chrome://extensions/页面,把安装包拖进去,拖进去,拖进去,不是双击


如果你觉得学习文章有帮助,可以分享给朋友。

感谢~~~


延伸阅读:

分析了10个公众号5600篇文章2000w字,原来它们用这个词最多!

不写代码,你也可以抓取任意公众号

没事别想不开去编程

1 个方法,让你 100% 赚回知识星球门票

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存