其他
网络安全“猥琐流”在爬虫领域的应用
一、缘起
在知乎看到 知道创宇 这篇帖子,思路深得我心。
原贴网址:
https://www.zhihu.com/question/28763096/answer/389685335
二、爬虫
最近使用爬虫,也按照此思路处理类似问题。举个栗子:
两个网站:
网站A,数据完整,时效性好。但内容无序。
网站B,数据为A子集,时效性稍逊,但内容有序。
这时从单独任何一个网站采集的数据价值都不会太大:只从A采集,相当于随机抽样,头部最有价值信息难以准确获取;只从B采集,则数据量有限且时效性差。
此时就可以两者结合,先获取B站完整信息,在利用从B站获得的主键定期在A站更新时效信息,另外还可从A站随机抓取作为补充。就可以获得相对较有价值的数据。
在实际应用中,通常需要同时组合多个网站 的信息,利用各自网站优势字段方可组合出具有较高商业价值的数据。
三、其他
社群:6个微信群 ①写作交流 ②爬虫技术 ③数据分析&可视化 ④Web全栈 ⑤SEO营销 ⑥Python实战,1个 知识星球,回复 社群 了解加入方式,一起切磋,互开脑洞。
推荐阅读:
1、抖音小姐姐、域名停靠思维,以及阴谋论