其他
1.背景介绍某周末闲来无事,顺手打开了CSDN,看到了一个人发布的收费GIS资源,售价是¥19.9,POI数据也有人买吗?这些都是免费的啊,打开了博主的主页。看到她上传的资源数量,被吓到了:alt这个博主,一共上传了8900个文件?我随意点开了她的一个资源,发现都是几个浏览,0下载:这位博士师姐不是白费劲吗?不对!天下熙熙,皆为利来;天下攘攘,皆为利往。如果不赚钱,也不至于上传这么多啊?何况她是一位博士,不至于浪费自己的时间。我想弄明白,她能从这里面到底获利多少?付出的时间是否和收益成正比?因此我写了几个python脚本,用以回答上述两个问题。2.技术路线在这个爬虫中,使用到的环境与工具有:Python3.6、notepad++、BeautifulSoup模块包。唯一需要用到的外部模块包是BeautifulSoup,这是一个网页分析工具,可以准确提取网页标签。其他的都是Python内置的函数。整体的技术路线图如下所示:在进行编程中,需要注意的三个技术难点:1.CSDN的个人主页资源介绍是一个瀑布流网页,最多加载100个list,因此需要找到该瀑布流网页的规律;2.CSDN网页有反爬机制,因此需要频繁更换浏览器标识,;3.几千个网线,使用多线程函数,比如700个线程同时爬;上面是大致的思路,详细的技术流程与代码,我会分享在下一篇博客中。3.数据结果通过爬虫,我最后得到了所有网页。我选取的时间段是2020/11/24-2021/7/12,累计是7700个资源详细信息。整理得到的具体条目:数据名称、资源类型、数据大小、数据浏览量、数据下载量、单价、总价、浏览下载比:4.数据分析待数据清洗完毕后,我迫不及待的计算了一下7700个文件,一共赚了多少:17670.99元。好像也不是很多吧?这可是7700个资源啊,多费时间,看起来不值得。待我继续往下分析,就觉得很值。(1)上传文件名称云图一共是两个云图,第一个是名称没有数据清洗的云图:第二个是名称经过数据清洗的云图:主观看上去,都是地信、交通类的资源,免费获取大部分都可以做到。(2)上传文件定价根据7700个资源进行单价分析,制作了定价频率图,如下所示:可以看到,大部分定价都是14.9,是比较亲民的价格,对于不擅长找资源的顾客,花这点钱,真的很经济。(3)浏览量与下载量博主一共上传了7700个文件,其中,有下载的只占7.4%,可转化率是比较低的。(4)上传时间分析我们来看看这位博主,喜欢什么时候上传文件:都是工作日的下午,正是上班的时候。除了学生,应该也没人会有空余时间。下面是上传天数分析,就很有意思了。为什么,请往下看:alt从2020年11月24日开始上传文件,到2021年7月12日,总共只花费了15天时间。相当于每一天净赚1000元,而且这个是被动收入。以后即使不做任何事,每年都有2w左右的收入。5.总结结论:1.花费了共计15天,每天下午上传资源,获得了每年不少于2W的被动收入(往后即使不做任何事情),这个很值!