杂谈|做一个“数据控”的弊端
昨天晚上我突然发现,自己谷歌浏览器收藏夹已经快空了,最近公众号坚持每天更新,素材就是来自这些年来收藏整理的网页收藏夹。从大学本科开始,我会简单的创建几个文件夹分类,没想到日后成了公众号文章的灵感来源(如何成为一个合格的数据“侦探”?)。然而,坐吃山空到没有好的素材可用的这一天终究是到来了。正好借着没有素材的一天,我又打算写一篇杂谈了,专门讲讲“数据控”的弊端,因为过分沉迷于搜集数据,我甚至差点没有毕业,你可能会认为这不可能,那么请继续听我讲述。
研一的时候,因为我看师姐的出租车研究很有趣,因此我也想研究出租车轨迹。正常来说,这个时候应该仔细阅读相关的出租车研究论文,学习别人的方法进行改进,从而完成自己的论文。但是,我一开始就走上了一条错误的道路,在阅读文献的时候,我的主要关注点集中在了论文的数据来源部分,着迷一样的疯狂寻找全国各地的出租车数据,这其中有上海的、北京的、深圳的、青岛的出租车数据(经验分享|如何寻找GIS数据?),这些都是通过各种数据竞赛向大家共享的。读到国外文献的时候,发现纽约出租车轨迹很有意思,国外的数据开发程度让我感到震惊。那时候我心里就开始想,国内数据的开放程度太低了。
因为没有什么好的研究方法,出租车轨迹研究就告一段落了。后来在导师的建议下转向了旅游流的研究,这时候都已经是研二的暑假了,还没写小论文的都很难毕业了。我在阅读旅游流相关文献的时候,看到有的文章居然只拿手动复制处理的200篇游记就开始做研究了,我就想如果使用网络爬虫的话很轻松就能得到几千篇游记吧,我在数量上肯定就打败这些论文了。这段时间,我一直沉迷于github(世上最简单的Github入门教程)上关于国内旅游网站的资料总结,总是想挨个都试试,把数据存下来。这时候还是导师的话及时提醒了我,“你看这些论文的方法了吗?写法学会了吗?”是的,我一直以来的关注点出现了问题,这和我现在写公众号文章完全不同的,我需要发表符合学校毕业要求的文章才能毕业的。痛定思痛之后,我就认准一个数据做下去,这期间只关注与我使用的这个数据有关的统计、交通数据,其他的数据不再搜集。因为精力都集中在这一点上,最终还是拿到了学位证。如果当时我还是以数据搜集为乐,我想我现在也很难毕业。
当然了,现在的我已经没有学业上的负担了,我偶然看一眼论文就是想知道数据哪里来的,我还专门写了一篇文章《通过论文的数据来源部分发现数据,以淘宝村数据为例》。实际上,看文献的数据来源部分找到这个数据是很花时间的,一天就找到已经算很快了。因此,如果你还在为学业努力的时候,就不要做一个“数据控”了,因为你根本就用不到那么多种类的数据,多把时间放在数据处理和研究方法上来。我以前搜集的数据如下:
全球森林观测项目(内含各种福利数据下载,自然保护区,生物栖息地,人口密度等)
欢迎关注我的公众号,搜集数据需要时间的积累,让我们下期再见