查看原文
其他

大数据应用 | 关于夜间灯光数据在经济学应用的探讨

数据Seminar 2022-12-31
图片来源:上海社会科学院法学研究所 刘颖  2019年12月5日 摄于上海中心

本文转载自公众号中国经济学教育科研网

原文信息:Gibson, J., Olivia, S., Boe-Gibson, G. and Li, C., 2021. Which night lights data should we use in economics, and where?. Journal of Development Economics, p.102602.


近年来,夜间灯光数据越来越广泛的被经济学者使用。无论是中文期刊还是国际期刊,都出现了大量基于DMSP夜间灯光数据的分析成果。研究成果鲜有讨论DMSP夜间灯光数据自身的问题和局限。本文分享Gibson et. al(2021)在Journal of Development Economics的文章,讨论夜间灯光数据库的选择、应用问题与局限性。



01

引言与背景



近年经济学中,大量基于夜间灯光数据的实证检验大多使用DMSP夜间灯光数据。关于DMSP(Defense Meteorological Satellite Program)的详细数据和介绍可以参见文末提供网址。DMSP数据被广泛使用主要有以下两个原因:一是Henderson et al. (2012)和Chen and Nordhaus (2011)的巨大学术影响。两篇文献指出,尽管夜间灯光数据有很多噪音,夜间灯光数据仍可以作为传统经济统计数据的补充。二是DMSP提供了较长时间序列(1992-2013)的年度数据。

最新的部分使用夜间灯光数据的研究开始使用另一个数据来源——VIIRS(Visible Infrared Imaging Radiometer Suite)。DMSP数据不提供2013年以后的数据,而通过VIIRS则可以得到仅稍有时滞的月度数据。遥感科学的几篇文献指出VIIRS数据相对DMSP数据的优点,但这些文献很少被经济学者注意和引用。

目前,虽然VIIRS月度数据可从2012年4月获得,但经过人工校准的年度VIIRS数据仅有2015年和2016年两年。而月度VIIRS数据中由于存在诸如极光等干扰,因此需要人工校准调整而不能简单加总与DMSP数据进行比较。

DMSP数据的缺点主要在于其数据模糊、分辨率粗糙、无人工校准、低动态范围、顶层编码设计问题和时空不可比等问题。Nordhaus and Chen(2015)指出,使用照明时间序列数据估计的GDP相较传统的截面GDP数据有更大的不确定性。由于技术观测等原因,DMSP数据缺乏空间准确性,这导致了DMSP数据中照明面积的估计存在巨大的高估——大城市的平均误差大约在77%,小城市的平均误差则会高达500%。由于月球反光和云量等技术原因,DMSP数据缺乏时间一致性,而这会导致基于DMSP数据估计的GDP时间序列数据出现偏误。由于不同观测卫星得到的灯光数据存在差异,不同卫星之间无人工校准导致了DMSP数据中部分地区数据存在前后矛盾现象。其他DMSP数据缺陷还体现在其卫星传感器缺陷导致了DMSP无法同时捕获明亮区域和昏暗区域的光,而这个问题在VIIRS数据中不存在。因此Bluhm and Krause (2018)提出,假设灯光数据服从帕累托分布,从而校准DMSP数据。

此外,夜间灯光数据另一个主要问题在于不太适合研究人口密度低的地区,其中就包括了广大农村地区。虽然VIIRS相对DMSP可以更好地检测光线暗淡的区域,但是承载VIIRS的卫星观测地球的时候的穿越时间大约是凌晨1:30,那时农村地区的家庭(或农场)照明不太可能被打开,而城市的路灯则往往都是整夜打开。Chen和Nordhaus(2015)发现,在DMSP数据中几乎有一半的单元记录为零光,而在VIIRS数据中所有单元都记录了光。实际上,即使对于人口在10,000至100,000之间的单元,在DMSP数据中也有51%被记录为零光。来自非洲,亚洲和太平洋地区的低密度区域的其他示例是:即使在这些区域中有一半以上的家庭使用电灯的情况下,DMSP或VIIRS也无法检测到高达70%的人口。



02

基于印度尼西亚的实证分析



文章选用印度尼西亚作为主要实证对象的原因是印度尼西亚是为数不多的拥有可靠的省/市GDP数据的发展中国家之一,可以将其作为基准(关于中国的问题作者在后文讨论)。

文章分析代表印度尼西亚农村城镇的Kabupaten(几乎没有城市化)和高度城市化的Kota。两类行政区域内都拥有众多人口。如果灯光数据中无法识别这两类地区或解释这两个地区的人均GDP,那么可以推断灯光数据在人口更少的地方表现会同样差。Table1是两类行政区域基础信息和灯光数据的描述性统计。

文章的基准回归方程是:

其中,被解释变量是各个地区的真实GDP的自然对数,核心解释变量是该地区灯光亮度年加总的自然对数,回归方程中还加入了时间虚拟变量以分析两年的混合截面。同时,类似于时间固定效应,任何其他时间上GDP的干扰因素也将被时间虚拟变量吸收。回归方程不旨在阐述经济上的因果关系,而是讨论两种夜间灯光数据作为衡量当地经济活动的指标对地方的GDP的替代程度如何。

基准回归结果如Table2所示,表格上半部分是混合截面回归结果,下半部分是逐年回归结果。基于印尼全国样本,使用DMSP数据,回归发现夜间灯光亮度与实际GDP没有显著相关关系,回归方程中R方最大也仅为0.01;使用VIIRS数据的混合截面回归R方值提高到了0.05,这主要由组间R方决定,回归的组内R方为0.00。

分别对Kabupaten和Kota两类区域进行回归估计。使用DMSP数据,研究发现,Kabupaten(农村地区)夜间灯光亮度与地方人均GDP关系显著为负;Kota(城市地区)夜间灯光亮度与地方人均GDP关系显著为正。使用VIIRS数据,Kabupaten(农村地区)夜间灯光亮度与地方人均GDP相关关系不再显著,Kota(城市地区)夜间灯光亮度与地方人均GDP关系仍然显著为正,并且R方为0.68。从R方差异中可以看出,夜间灯光数据更适合应用于城市化程度较高地区。夜间灯光数据并非印尼等国非城市地区GDP数据的一个合适替代。同样,还可以看出,VIIRS数据的预测能力要高于DMSP数据的预测能力。此外,作者基于2015年VIIRS校准结果,将2012-2013年VIIRS月度数据汇总处理,发现VIIRS数据仍然比DMSP数据有更高的预测能力。

众多实证研究使用了更加精细的区域,甚至使用像素级的DMSP数据进行实证研究。将夜灯数据用于如此小的空间单位,有必要评估DMSP数据和VIIRS数据在预测不同空间聚集水平的GDP方面的表现。由于印尼数据限制,下文作者将使用中国数据对此进行检验。

DMSP夜间灯光数据还被广泛用于实证研究区域不平等现象,但使用DMSP数据很有可能低估了空间不平等。Table 3汇报了基于不同指标测算的印度尼西亚的基尼系数和泰尔指数,其中第二行是假设灯光服从帕累托分布进行调整的DMSP数据;Figure1进一步汇报了基于两种夜间灯光测算的洛伦兹曲线。2011年至2016年,以GDP测算的印尼基尼系数几乎没有变化,泰尔指数略有下降。但使用DMSP估计的基尼系数和泰尔指数却明显明显低于使用VIIRS数据估计的基尼系数和泰尔指数。无论是使用哪种夜间灯光数据,使用统计GDP得出的空间不平等均高于利用夜间灯光数据对空间不均等的估计。

夜间灯光数据还被使用进行城市内部差异分析。但由于DMSP数据获取的技术原因,使用DMSP数据对特定城市分析同样会存在扭曲。Figure2基于夜间灯光数据绘制了雅加达城市内部情况,其中(a)从DMSP数据得出,82%的城市区域都处于亮度过饱和状态,DN值为63(很可能是最高值),17%的城市区域DN值为62,因此整个城市与农村的区别就相当于一个0-1虚拟变量;(b)使用了帕累托调整的DMSG数据(假设亮度服从帕累托分布),调整后数据粗略定位了雅加达CBD位置,但忽略了雅加达城市特征,也没能捕捉雅加达港口的信息;(c)使用了VIIRS数据,既刻画了雅加达CBD的城市特征,也捕捉到了雅加达繁忙的港口信息。



03

基于中国和南非的实证再检验



以上结论作者利用欧洲发达国家进行了检验,结果在作者John Gibson的另一篇工作论文中。基于中国和南非数据,作者对主要结论在发展中国家的应用进行了检验。

与印尼Kabupaten和Kota两种行政区域覆盖整个国家不同,中国的行政区划更为复杂。其一,尽管大部分地区行政区划都是“省——县——乡”三级,存在诸如自治旗、县级市、直辖市等诸多例外区域,这导致了上海拥有16个区,但一般城市很难拥有那么多区县;其二,按照中国的市辖区和县进行划分,市辖区范围内仍然存在许多农村区域,在许多县中也存在县城区域,无法在统计数据上真正将农村与城市分离;其三,基于《中国城市统计年鉴》的省市GDP数据系统性排除了中国人口密度最低的地区。而如果同样剔除印尼6.7%人口密度最低的区域,夜间灯光数据在预测GDP方面的性能同样可以提升,DMSP和VIIRS在预测能力上的差距也会更小。具体而言,使用DMSP数据的R方将提升至0.24,使用VIIRS数据的R方将提升至0.61。

Table 4分别汇报了两种夜间灯光数据的夜间灯光亮度与中国县级地域GDP相关关系。Merged countries和Merged districts两列忽略上述市辖区与县城问题,将统计数据中市辖区和县进行区分,结果仍然得到了与上文类似的结论。

进一步,文章选用了重庆市详细的统计数据展开讨论。Table5汇报了两种夜间灯光数据夜间灯光亮度与重庆市区县GDP的相关关系。其中VIIRS2012-2013数据由VIIRS月度数据经过修正估计得出。将GDP按照三次产业结构划分,夜间灯光亮度与第一产业产出的拟合优度较低,可以推断在农业占较大比重的地方,灯光数据不太可能很好地替代经济活动。将GDP按照更小的空间单位划分,DMSP数据对于小面积区域的预测能力将更弱(R方 0.18vs0.82),VIIRS数据对于小面积区域的预测能力同样不如大面积区域(R方0.66vs0.86)。

基于南非的就业数据和GDP数据,文章再次得出类似的结论。


04 结论

首先,与被广泛使用的DMSP数据相比,VIIRS数据可以更好地替代经济活动。尽管DMSP数据具有更长的时间跨度,由于技术原因,大多数遥感数据都不能很好的预测经济活动在时间序列上的变化。因此评估夜间灯光数据的性能应当更多考虑其对解释截面数据的解释能力。

其次,DMSP数据和VIIRS数据似乎都不能很好地代表低密度农村地区的经济活动。因此,传统的农村调研对于农村研究在今天仍然起着不可被替代的重要作用。同时,相比夜间灯光数据,其他遥感包括白天图像检测的Landsat数据或可以更好反应农村经济的截面情况。

此外,在将DMSP数据缩小范围使用时,DMSP数据的拟合优度也会下降。使用VIIRS数据,这个问题同样存在,但下降的幅度小于DMSP数据。使用DMSP数据分析城市内部经济活动时,城市内部被同质化,而VIIRS数据为研究城市发展的空间格局提供了更好的资源。



原文提及的几种卫星数据



[1] DMSP夜间灯光数据:

https://www.ngdc.noaa.gov/eog/dmsp/downloadV4composites.html

[2] VIIRS夜间灯光数据:

https://eogdata.mines.edu/download_dnb_composites.html

[3] LandSat日间图像数据:

中国科学院地理空间数据云:http://www.gscloud.cn

Abstract:Popular DMSP night lights data are flawed by blurring, top-coding, and lack of calibration. Yet newer and better VIIRS data are rarely used in economics. We compare these two data sources for predicting GDP, especially at the second subnational level, for Indonesia, China and South Africa. The DMSP data are a poor proxy for GDP outside of cities. The gap in predictive performance between DMSP data and VIIRS data is especially apparent at lower levels of the spatial hierarchy, such as for counties, and for lower density areas. The city lights-GDP relationship is twice as noisy with DMSP data than with VIIRS data. Spatial inequality is considerably understated with DMSP data, especially for the urban sector and in higher density areas. A Pareto adjustment to correct for top-coding in DMSP data has a modest effect but still understates spatial inequality and misses key features of economic activity in big cities.






点击阅读原文进入CCAD数据库



·END·


星标⭐我们不迷路!

想要文章及时到,文末“在看”少不了!


点击搜索你感兴趣的内容吧


往期推荐


软件应用 | 手把手教你用Matplotlib进行数据可视化

数据分享丨守护好我们的绿水青山!中国低碳循环年鉴(2008-2019)

机器学习 | 终于有人把条件概率和贝叶斯公式讲明白了

数据交流丨联合国可持续发展目标指标数据库

老姚专栏 | 体悟假设检验之道

数据分享丨话不多说,快来领取中国低碳年鉴(2010-2017)

因果推断 | 一文读懂倾向匹配得分Stata及R操作应用







数据Seminar




这里是大数据、分析技术与学术研究的三叉路口



文 | 中国经济学教育科研网

推荐 | 青酱



    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存