【实验教程】中国土地市场网土地出让数据如何处理呢?
中国土地市场网土地出让数据如何处理呢?
前面对中国土地市场网土地出让数据进行了分享,接下来讲讲这个数据可以如何处理。
处理工具选择
前面分享的数据总量高大250万条,即使是去除了无法解析地址的60万条数据,带有经纬度信息的数据仍然高达190万。非常庞大的数据量,远远超过了EXCEL能处理的极限。那么怎么办呢?下面給大家提供几个选项:
编程语言 Python R GIS ArcGIS Desktop ArcGIS PRO QGIS
编程太难了,放弃。那么只能是选GIS软件了,平时用的ArcGIS Desktop是32位的,这么大数据量直接崩溃,也可以放弃了,那么只有ArcGIS PRO和QGIS两款64位的软件可以用了。
ArcGIS PRO读取属性数据编码容易出错,数据量太大也容易崩溃,还是免费的QGIS比较好,那我们就用它了。
数据处理
数据筛选
原始的土地出让数据有250万条,其中60万条数据经纬度有空值,我们在空间化数据前需要先把空值去除。
加载数据很简单,直接拖进去就行。多等一会,毕竟是大数据呢。
在打开属性表之前需要选择合适的编码,默认的是System,但是一般windows使用的是ANSI编码,这个数据使用的是UTF-8,如果不选择编码会乱码。所以我们需要先选择合适的数据源编码。
选择好编码后,我们右击打开属性表,这样呈现的就是正确的信息了。
"经度" <> '' AND "纬度" <> ''
将选好的数据导出另存即可。
属性数据空间化
图层-添加图层-添加文本数据图层,注意选择合适的编码,经纬度字段,选择好后添加,然后就是等待……
可以明显的看出,东部地区密密麻麻(港澳台数据缺失),叠了不知道多少层,西部地区有大量的土地一个点都没有。
记得将空间化后的点导出数据哦~
按卖地时间筛选
数据中有合同签订的具体日期,在这我们按年进行数据的拆分。
首先我们需要根据合同签订日期获取签约年份。
year ( "合同签订日期" )
对添加签约年份字段的矢量进行拆分,按照上面新建的year字段进行拆分即可。QGIS默认输出是GPKG格式,注意改一下SHP,方便使用。
观测值太多了,我们随机抽样吧
使用Random extract工具可以将数据进行随机抽样。抽样可以是百分比或者抽取的个数。
土地出让价格热力图
在QGIS中可以很方便的对点数据进行热力图可视化。
可以导出多个时间的热力图,使用PS制作为动图。