杂谈|花钱买数据就是“智商税”吗?
我经常收到关于数据的问题,有很多数据是很明确不会有共享的,比如高分辨的土地利用数据(不是覆盖)等。因此,那就只有购买这条路可以走了,我是没有买过任何数据的,在这里没有发言权。我只是谈谈花钱买数据这件事本身,我认为如果花钱买的是本身就是免费的数据那就是智商税,如何不是免费的,而且科研项目或者论文是需要的,那就是一笔正常的支出,是应该的。下面具体讨论一下这个问题。
1
常见的智商税数据
(1)县级及以上的行政区划数据
建议阅读数读城事的文章《【数据整理】2019年行政区划调整的数据更新与分享》
(2)世界行政区划
建议阅读《细数“问题地图”的几大矢量来源,以及符合要求的正规数据来源》,中科院资源环境数据中心的数据质量比较可靠。
(3)12.5米DEM数据
https://blog.csdn.net/qq_46071146/article/details/103681676
30m,90m等低分辨率数据建议阅读《数据福利|各种分辨率DEM数据下载》
(4)土地覆盖数据
建议阅读《 数据福利|土地利用(覆盖)数据下载汇总》
(5)人口密度数据
建议阅读《数据福利|全球人口密度数据汇总与共享》
(6)其他数据
在确定要买以前,可以仔细阅读《经验分享|如何寻找GIS数据?》《没有数据怎么办?建议自己做一个》
2
如何避免购买数据
(1)考虑可替代的容易获得,容易处理的数据。在开始写论文以前就应该考虑数据这个大问题了,举个例子,当你在做旅游流研究时,你一定会发现新浪微博是用户量最大最优质的数据,如果你既不会爬虫(听说新浪微博的反爬虫很厉害),也没有资金购买新浪微博,那么建议你去选择一个叫Flickr的地理标记照片数据进行替代。而且清华大学龙瀛老师还在BCL北京城市实验室网站上共享了这个数据集,也免去了大家写代码的痛苦。而且用Flickr做研究的人也不再少数,说明这个数据集也值得使用。为什么一定要花费大量时间和精力,还有金钱去研究遥不可及的数据呢?就算数据给我,我也不会处理啊......
建议阅读一篇关于Flickr数据处理的博客,看完你就知道大数据虽好,没技术你也处理不好。《从YFCC 100M数据集中筛选出Geo信息位于中国的数据集》https://www.cnblogs.com/libaoquan/p/7856789.html
(2)做方法论的研究。我见到一些精彩的方法论的研究,所使用的数据只是为了验证方法的精度,之所以现在论文的数据需求量大,是因为更多的人研究的是某种现象。因此,改变写法也许就可以直接使用示例数据了。说实话,这样的确很难,至少硕士阶段很难。
(3)团队互帮互助。一般来说,一个科研团队研究的大方向是一致的,通过团队成员之间的互通有无,可以有效避免数据资源的浪费,也可以创造更多的成果。
3
如何购买数据
这一点我是很没有发言权的,因为我没买过。经过很长时间的道听途说,我听说几个平台的数据价格高到离谱,如果没有足够的经济实力,我建议你可以好好想想改研究方向的问题。要知道,每一期期刊上都有用平平无奇的统计数据写的很精彩的文章,也许重要的不是数据,而是写文章的人。
欢迎关注我的公众号,除了数据分享,偶然也会杂谈