查看原文
其他

网络安全“猥琐流”在爬虫领域的应用

森淼 风巢 2020-01-07

一、缘起

在知乎看到 知道创宇 这篇帖子,思路深得我心。


原贴网址:
https://www.zhihu.com/question/28763096/answer/389685335


二、爬虫

最近使用爬虫,也按照此思路处理类似问题。举个栗子:
两个网站:
网站A,数据完整,时效性好。但内容无序。
网站B,数据为A子集,时效性稍逊,但内容有序。
这时从单独任何一个网站采集的数据价值都不会太大:只从A采集,相当于随机抽样,头部最有价值信息难以准确获取;只从B采集,则数据量有限且时效性差。
此时就可以两者结合,先获取B站完整信息,在利用从B站获得的主键定期在A站更新时效信息,另外还可从A站随机抓取作为补充。就可以获得相对较有价值的数据。
在实际应用中,通常需要同时组合多个网站 的信息,利用各自网站优势字段方可组合出具有较高商业价值的数据。


三、其他

社群:6个微信群 ①写作交流 ②爬虫技术  ③数据分析&可视化 ④Web全栈 ⑤SEO营销 ⑥Python实战,1个 知识星球,回复 社群 了解加入方式,一起切磋,互开脑洞。


推荐阅读:
1、抖音小姐姐、域名停靠思维,以及阴谋论

2、抖音数据可视化从 0 到 1 

3、公众号跳转任意门套路揭秘

4、一个偶然发现的月赚千万niche站案例剖析

5、今天好开森,终于有人抄袭我了

6、如何从别人的提问中挖掘财富机会?

7、今天刷屏的 妖魔鬼怪H5 案例复盘 及 源码分析

8、区块链原创保护平台“原本”数据抓取&可视化实战


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存