有关webscraper的一些问题

Original 明白1 多元思维Hack 2020-10-06

《不用写代码的爬虫课》发布后，有不少朋友来找我抓数据，但是有的朋友对于爬虫不了解，所以造成交流不畅。这篇文章就是分享一些爬虫的基础信息。

这篇文章只针对 web scraper

一、爬虫是什么？

爬虫，通俗一点讲，就是让程序帮你统计网页上的数据。

比如，你要统计一个公众号的所以文章标题，如果有 500 篇文章，你手动复制粘贴到 excel 里面，一个标题 10 秒，大概需要1 个多小时。

但是如果会爬虫的话，你只需要设置一下抓取规则，然后程序会帮你抓，大概 1 分钟左右就能做完。如果数据量大，可能需要时间更长一些。

二、爬虫不是什么？

爬虫只能抓 网页上眼睛能看到的信息（这里指的是 webscraper 的范围）。

爬虫没有搜索功能，没有语言功能，没有数据分析功能，也没有求和功能，也没有排序功能。这些操作可以放到抓取后的 excel 里面操作。

三、怎么确定自己要抓的东西爬虫能完成？

注意：这里只针对《不用写代码的爬虫课》

如果你要抓一个东西

你必须提供一个网址（也可以叫链接、或者 URL）。

例如：http://www.zsxq100.com/

你需要在浏览器的地址栏里访问这个页面，看一下，你要抓取的信息，能不能用眼睛看到。

如果能看到，那就能抓，如果看不到，那就抓不了。

四、某某网站能抓不？

看第三点。

五、某某 APP 能抓捕？

自己搜索一下，这个 APP 有没有网页版。

如果有，返回看第三点。

六、用 webscraper 抓数据，需要翻墙不？

抓数据需不需要翻墙，取决于你要抓的网站，需不需要翻墙。

如果你访问的网站，需要fq才能看到内容，那么抓取的时候也就需要fq。反之不用。

比如，抓 Facebook：因为访问Facebook本身就需要fq，所以你抓的时候也需要打开fq软件。

比如，抓知乎：因为访问知乎本身不需要fq，所以你抓的时候也不需要fq。

另：webscraper 安装的话，可以不用翻墙，课程里有讲不用翻墙的安装方法。

七、只能用谷歌浏览器吗？

对，我只对谷歌浏览器负责。

虽然有的其他浏览器（QQ浏览器，360浏览器）也能运行 web scraper，但是在我测试过程中，会有一些兼容性问题，会出现一些莫名其妙的错误。

必经不是原生版，出了问题很难分析。

八、能抓微信号、手机号码？

参看第三点。

九、学了这个能抓某某网站吗？

一句话，网页上能看到的信息，99% 都能抓到。

我不会说那种绝对正确、类似能抓取一切的话，事实上，即使你找一个顶尖的爬虫工程师，他也不敢保证，所有的信息都能抓取。

九、如果要别人帮忙抓取数据，你需要提供的信息

必须提供详细信息，否则不予理会

1、要抓取的网址链接。为什么要提供这个，参看第三点。
2、要抓取的信息字段，为了不产生歧义，需要截图标注清楚
3、如果有多页，要说明抓多少页

举例——
需求概述：小明要抓取淘宝上关于酸奶的商品信息。
需要提供：

网站链接 —— 如何获取？进入淘宝 www.taobao.com，然后搜索“酸奶”，出现的这个链接，就是爬虫需要的链接，结果链接如下：
https://s.taobao.com/search?q=%E9%85%B8%E5%A5%B6&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306

image.png

需要抓取这个页面的所有商品，每个商品需要抓取的信息：

产品名称
价格
购买人数

具体截图如下：

image.png

搜索结果一共有 100页，只需要抓取前 5 页即可。

image.png

ps:上面是个例子，具体情况，可以根据需求改变。比如抓取的字段不同，或者抓取页数不一样等

十、抓取过程中遇到问题，该怎么解决？

课程里面不仅讲了如何抓取，也讲了遇到问题的分析，以及解决思路。

遇到问题，先根据课程里讲的步骤分析，基本是能解决问题的。

十一、为什么我抓亚马逊出错了？

我在课程里讲第一个例子的时候，就强调了一个重要点：

先不要抓课程之外的网站，等到把课程里的例子，全部练到不用看教程就能抓取成功的熟练程度，再去抓课程之外的网站

不是我故意为难大家，也不是故作高深。

爬虫课，我是按照由浅极深的顺序讲的，每一节的难度都是慢慢增加，每一节都是针对抓取不同类型的数据，也就是课程里的例子全部练熟，就相当于全网的数据类型，你都可以在这里按照方法参照抓取。

每一节课程里的例子，都是我专门挑选的，是这个类别里面最简单的网站。

为什么要挑最简单的，因为大家都是初学 web scraper，如果一开始就选比较复杂的网站，这样抓起来容易出错，出错的话，人的情绪能会受挫。

等到简单的例子熟练了，后面学习复杂的例子，就会得心应手。

我自己听过 xdite 老师的元学习课，所以在「教」方面，有些心得：人在学习新知识的时候，正反馈是很重要的，还有其他一些小技巧，这里不再赘述。

十二、我的一点个人经验

学习“技能型”知识的时候，比如webscraper，不要想着练习一次就能学好，学精。

学习任何技能都会有一个从笨拙到熟练的过程，一开始这错那错，都很正常，这是每个人的必经之路。

那些熟练操作的人，都是经过了千万次练习。

如果错了，也不要慌，删掉这个 Sitemap，仔细按照步骤，重新开始。

第一遍如果成功，你就会对整体有个了解，再练习第二遍，就算是同一个例子，你也需要多练习几次。

不要着急，慢就是快，慢就是快。

十三、为什么要学习 web scraper ？

如果让我来分享为什么要学习 web scraper，我想会有 2 个原因。

1、锻炼逻辑、分析问题的能力

我以前写过一篇文章没事别想不开去学编程，里面的其他观点我不再赘述，其中有一点：如果你只是想锻炼技术思维，学别的东西也可以锻炼。

我当时写文章的时候，没有想好合适的例子。

这几天，我就突然想到，爬虫课就是一个很好锻炼逻辑能力，锻炼分析问题的能力。

web scraper 是个程序封装的工具，使用的时候，每个步骤都必须很精确。

如何确定要抓取的网页用什么选择器？
如何确定网页上的哪些信息是同一个类型？
遇到问题，如何采用「控制变量法」分析原因，找到解决方案？

这些分析问题的能力，不只能用在抓取数据，也可以通用到任何其他领域。

不要把爬虫课只当成爬虫课来学。

2、增加一个维度竞争力

你有没有过这种经历，一个你很仰慕的大佬，在朋友圈发了一个状态，寻求某种帮助，而你刚刚好能提供这种帮助，因此和大佬有了交集，之后大佬如果有一些有料的信息，也会告诉你……

如果你掌握了一门大多数人不会的技能，就会给你增加一个很大的竞争力。

我不是说只有 web scraper 可以，写文案、PS、营销、设计等等都是。

相比较而言，学 web scraper 性价比最高 ——

会的人少：稀缺度决定价值
学习成本小：容易掌握

点到为止，不再多说，愿者上钩。

十四、什么人不适合学？

觉得看一遍就行，不想练习的人
不按照教程走，跳着看的人
课程里讲过的东西，群里不再答疑，不能接受的人
不喜欢思考，只喜欢提问的人

十五、为啥私信不回我

如果有问题，可以现在群里交流，帮你解决疑惑的同时，也可以让其他人受益，否则请先发红包。

十六、还有什么要说的吗？

这不是一篇课程宣传文章，那些煽动情绪，说明课程利益点的文案，这里没有。我连爬虫课的入口都不放出来。因为找到课程入口本身，就是一道门槛。

无码科技团队发布了一款 Chrome 扩展工具。这个工具用于帮助商家快速发现自己产品介绍里的广告违禁词，已兼容最新版广告法。

检查商品描述中可能违反广告法，或可能导致审核不通过的违禁词和高风险词，且支持图片文字识别。

这是我检测这篇文章的结果：

插件安装需要科学上网，如果无法科学上网，可以后台回复“无码科技”，下载安装包。然后打开浏览器进入：chrome://extensions/页面，把安装包拖进去，拖进去，拖进去，不是双击

如果你觉得学习文章有帮助，可以分享给朋友。

感谢~~~

付鹏 —— 《2024年年终回顾和2025年展望——对冲风险VS软着陆》

炸裂大瓜！九比童“厉害”，女网红再嘲童锦程！哲家财团豪刷柚柚CC！

寒潮前最后一波捡漏！100%纯羊毛大衣只需179元！千元级质感，上身超显贵气~

清华女神，34岁的美女博士县长，辞职了

13人被撤销本届全国政协委员资格丨时政周报

有关webscraper的一些问题

一、爬虫是什么？

二、爬虫不是什么？

三、怎么确定自己要抓的东西爬虫能完成？

四、某某网站能抓不？

五、某某 APP 能抓捕？

六、用 webscraper 抓数据，需要翻墙不？

七、只能用谷歌浏览器吗？

八、能抓微信号、手机号码？

九、学了这个能抓某某网站吗？

九、如果要别人帮忙抓取数据，你需要提供的信息

十、抓取过程中遇到问题，该怎么解决？

十一、为什么我抓亚马逊出错了？

十二、我的一点个人经验

十三、为什么要学习 web scraper ？

1、锻炼逻辑、分析问题的能力

2、增加一个维度竞争力

十四、什么人不适合学？

十五、为啥私信不回我

十六、还有什么要说的吗？

您可能也对以下帖子感兴趣

付鹏 —— 《2024年年终回顾和2025年展望——对冲风险VS软着陆》

炸裂大瓜！九比童“厉害”，女网红再嘲童锦程！哲家财团豪刷柚柚CC！

寒潮前最后一波捡漏！100%纯羊毛大衣只需179元！千元级质感，上身超显贵气~

清华女神，34岁的美女博士县长，辞职了

13人被撤销本届全国政协委员资格丨时政周报

生成图片，分享到微信朋友圈

有关webscraper的一些问题

一、爬虫是什么？

二、爬虫不是什么？

三、怎么确定自己要抓的东西爬虫能完成？

四、某某网站能抓不？

五、某某 APP 能抓捕？

六、用 webscraper 抓数据，需要翻墙不？

七、只能用谷歌浏览器吗？

八、能抓微信号、手机号码？

九、学了这个能抓 某某网站吗？

九、如果要别人帮忙抓取数据，你需要提供的信息

十、抓取过程中遇到问题，该怎么解决？

十一、为什么我抓亚马逊出错了？

十二、我的一点个人经验

十三、为什么要学习 web scraper ？

1、锻炼逻辑、分析问题的能力

2、增加一个维度竞争力

十四、什么人不适合学？

十五、为啥私信不回我

十六、还有什么要说的吗？

您可能也对以下帖子感兴趣

九、学了这个能抓某某网站吗？