干货分享 | 网络爬虫这么危险,还要学吗?
The following article is from 小猿猴GISer Author 小猿猴GISer
我很认真的学习了这么课,了解了网络爬虫的“盗亦有道”,我们要遵守robots协议,比如百度地图的robots.txt(https://map.baidu.com/robots.txt)
User-agent: *
Disallow: /
import pandas as pd
import requests
r =requests.get("https://restapi.amap.com/v3/config/district?keywords=上海&subdistrict=0&key=yourkey&extensions=all")
s=r.json()
poly=s["districts"][0]["polyline"]
p=poly.split("|")
x=[]
for i in range(len(p)):
a=p[i].split(";")
for j in range(len(a)):
x.append([a[j].split(",")[0],a[j].split(",")[1],i])
c = pd.DataFrame(x)
c.to_csv('xzqh.csv')
以上说的都是爬虫受到的限制和法律责任,我们学习爬虫主要是为了减少重复性工作。虽然网站提供了数据API,但是我们要使用,总不能自己手动去处理,一条一条数据提出来,这时候,就得用网络爬虫来解决了,但是归根结底,爬虫的问题就是Python的问题。只有写好了python,才能用好爬虫,看懂github上的代码,我在之前的文章有提到《干货|GISer如何学Python》《世上最简单的Github入门教程》。
所以我认为,网络爬虫没必要学,Python才有必要学!!!
github上资源那么多,干嘛要费劲自己写,我在flickr地理标记照片的时候,曾自己对着api写代码,
非常难用。在github上找别人写好的,既轻松又准确。但是我们了解了网络爬虫以后,修改起来会更容易写,从这个角度看,基础的requests的get方法还是要看一看的。兴趣是最好的老师,工作和生活中的问题也会推着你前进。网络爬虫要不要学,还要看你有没有兴趣,有没有需要。最后一句提醒,千万不要把网络爬虫当成是挣钱的工具,要把爬虫用到正道上来,比如科学研究。
经原公众号授权转载
文章仅代表原公众号观点,与本公众号无关,版权归原公众号所有
原文标题:网络爬虫这么危险,还要学吗?
责任编辑:魏雪馨
审编:鲁嘉颐
终审:顾伟男 田巍 梁龙武
猜你喜欢
1.招贤纳士 | 临沂大学资源环境学院2020年高层次人才招聘
扫描二维码,关注我们
都看到这里了,点个【在看】再走呗~