大数据应用 | 前沿:卫星数据在实证研究中的应用,用其开展因果推断的好处!
The following article is from 计量经济圈 Author 计量经济圈
正文
1.从上面看:卫星数据在经济学中的应用
优点一:遥感数据可以以较低的成本(成本低),通过多次大规模的测量(次数多)来得到某些常规方法难以获取的数据特性(可测得“特殊”变量)。同时,遥感 图像或遥感数据还具备客观性,不容易被因贿赂等原因导致政府等机构篡改和误报数据。【举例:通过观测森林大火产生的污染物,来推测胎儿和婴儿的死亡率,这些细小污染物的观测是常规调查方法无法做到的。】
优点二:遥感数据相比传统数据有更高的空间分辨率(观测面积、图片和数据更精细)。也就是说,遥感技术观测的范围和观测值比传统方法更精细、清楚,且观测图片更加清晰。【举例:研究某停车场停车状况时,由于车体的金属比地面具有更大的反射性,这时,利用高空间分辨率的图像就能更准确地观测某停车场内的停车情况, 从而推动相应的研究。】
优点三:遥感数据具有更宽广的地理覆盖范围(范围广)。它不受地理政治气候等边界的限制(全覆盖),并且可以长时间持续观测变量的变化,包括数值、趋势、与其他变量之间的关系等(第二篇文章中,说法为:连续产品 - continous products)。【举例:研究气候变化对不同时期粮食作物中的小麦和大米产量的影响。】
优点四:网上平台提供的免费遥感图像和从图像到数据到数据产品的工具为人们提供了便捷(易得,易处理,此处暂时不考虑一些随机误差和系统误差)。
轨道:大多数遥感卫星围绕着两条轨道运行:与地球旋转同步的和与太阳同步的。与地球旋转同步的轨道解释起来很简单,就是卫星围绕赤道上方的某一点旋转。好处是可以长时间观测卫星涉及地区的变化状况,劣势有两点,一是由于观察范围不全面,导致有些地方不能产生卫星图像,从而被遗漏。二是与地球旋转同步的轨道要求卫星离地表的距离过远,使卫星图像的分辨率不高,难以得出精确的卫星数据。与太阳同步的轨道则有更多的优点,首先它要求卫星离地表的距离比与地球旋转同步轨道的要求要近得多,也就是说卫星图像的分辨率会更高。其次这种轨道运行方法保证了卫星会在每天的同时间、同地点、同光照下测得数据,它的覆盖面极广,包含了南北极。我们可以把这种运行轨道想象成是一根丝带,把地球想象成一个圆球球。丝带围绕着球竖着缠,绕了一圈就是一轮的结束。显然,宽度越大(赤道)越长,过南北极的经度线就越短,球就越瘪,同长度的丝带就可以竖着绕更多圈;同样的时间用同长度的丝带也可以竖着绕更多圈。
传感器和频段:一个遥感卫星可能含有多个传感器,一个传感器也可以从一个或多个频段中观测能量,同时收集不同的数据流。强光谱分辨率的传感器能收集非常多的频段中的信息,判断不同类型、不同程度的光。【举例:植物在其生命周期的不同阶段以不同的频率反射光,卫星传感器通过探测到不同频段,从而得到数据,我们可以推导植物的生长阶段】。作者在这里还提出了无源卫星和有源卫星,说明写在了第二篇文章的阅读笔记里。
中间处理(在第二篇文章中,说法为:预处理):最原始的数据一般叫做水平0 数据,随着数据精准度的上升,水平也依次从 0 到 1 再向上增加。如果卫星经过一个最低点直接观测某地的角度是正确的,但是它在同一个地点观测其他地点的角度却可能是错误的,这种误差可能导致研究的失误。也有可能卫星观测得到某地的卫星图片数据,但由于此张图片的云层过多,影响了频率反射光的准确度,这时我们需要将多张照片叠加相看,综合得出结论。所以有很多方面可能导致原始图片有误差或错 误,作者在这里提出的方法是分析大量图片数据,排除误差项,通过中间处理,提高数据的精准度。
作者提到了两种分类,一种是无监督分类:数据被不加额外条件地分类,比如不被人们固有观念中的分类所影响。另一种是被监督分类:为之前就存在的类别寻找符合的数据。个人认为这两者的主要区别就是第一种是在得到了数据之后,仅通过分析数据内部的关系得到的分类;而第二种其实是人们在分析数据之前就已经对所研究领域有了解,知晓其中的分类原则,然后再把新发现的数据装进本来就知道的分类中。
夜间灯光:夜间灯光数据与经济活动存在密切的相关性,夜间灯光与 GDP存在线性关系。【典型案例:朝鲜和纽约】
气候和天气:短期的天气波动和长期气候趋势对人类活动有影响。由于搜集数据的天气站非常稀少,研究人员通常通过三个方面来合并观测:气象站的天气数据、更远的更广的数据来源:如云覆盖,云顶温度等】、气候模型。比如,好的天气影响可以使卫星数据能清楚反应局部冲突;坏的天气影响可以反应一定的婴儿或胎儿的死亡率。并且卫星数据的客观性还不会因为人们的忘却而忽视了天气和气候的影响。
地势:卫星数据可以通过研究地势的变化来探求城市土地供应的外生变化来源;研究大型基础设施投资的经济影响(水坝对贫困和农业生产力的影响);对作物实现单产的预测等。
农业土地使用和作物的选择:一方面通过观察种植的密集程度和范围等来研究农业政策对农民的激励效果;另一方面观测农业产量,分析农业生产力。
建筑类型:前沿研究正在使用遥感数据来识别个体,并按类型对这些建筑物进行分类。比如,通过卫星数据,我们能分辨房屋质量、房屋材料、房屋新旧等。
自然资源:毁林可以被卫星数据量化,最早的研究是将卫星数据和实地调查结合起来研究的。卫星数据还可以检测对自然资源产生破坏的违法活 动。同时,卫星数据通过关注海滩质量从而推断旅游业的兴盛与否等。
污染监测:在环境监测的过程中,很容易被政府操控。卫星数据可以提供客观的环境污染数据,于是可以进一步分析环境污染状况。
资源合并:卫星数据的使用可以和从机器那里学到的技术相结合,对感兴趣的现象进行预测和研究。虽然在经济领域用得很少,不过最近也有突 破。
遥感数据集具有复杂性。地球可以被分为上亿个单位,这种高维度数据很难用简单的线性关系建模分析。所以为了更好处理新遥感数据,经济学家需要更新升级所用的工具吗,达到高维空间模型中的平衡。
卫星数据通常显示出很强的空间依赖性,即一个单元很可能与临近的单元有关。并且区别数据被用作自变量还是因变量也是必要的。当遥感数据用作自变量时,则所有估算的回归系数都可能存在偏差。
结合了多种输入的衍生产品在整体解释上也需要谨慎。比如,虽然夜间灯光和收入、贫穷、电力、二氧化碳排放等都有关系,但至少在国家这个层面上,每种情况对灯光的假设是不同的。所以要格外注意数据本身以及数据背后的假设。
测量误差一直存在,并且有时被忽视,比如太阳角度偏差、大气条件阻拦等一些主客观因素。
在越来越高的分辨率下,卫星可以提供更多精准的信息, 这些可能会涉及到隐私问题。
(1):卫星数据的收集相比传统方法更容易得到,尤其在研究土地覆盖这类涉及面积巨大的问题上,显得更加方便且节约成本。 (2):第二个优势与第一个优势是相对的。卫星数据不仅可以方便在大的面积、范围上观测,还可以深入到小范围(传统粗分辨率的普查数据无法做到)。 (3):一直可以连续观测大小区域里的各种变量。优势(1)和(2)与分类产品有关,优势(3)与连续产品有关。
在遥感领域中,如果要验证数据产品,标准的做法是使用一组全新的数据,使用混淆矩阵和一些通用的指标来得到与验证数据相比准确和没有被准确预测的站点数量,从而判断正确与否【混淆矩阵的知识点在第三部分知识拓展里会有体现】。从卫星图像到卫星数据再到数据产品这一系列过程中吗,必须要强调独立数据进行验证的重要性,不仅可以确保数据产品所需的变量都被观测,还可以识别数据集中的潜在错误。【举例:通常降雨量越多的地区,越有可能被认为是洪泛区。可专家们将降雨量最多的地区和洪泛区的卫星地图相对照时,却发现不能完全重合。很可能用洪水灌溉的农作物区被卫星图像误认为是洪泛区】
测量误差可能来源于传感器特性、与太阳和地表有关的卫星角度和大气条件。简单来说,为了准确得到土地覆盖图所需的卫星数据,我们需要收集被地球表面反射的能量。然而原始卫星数据测量的是卫星收集到的所有辐射量(其中有些不是被地球表面反射的)。如果如果大气中存在更多的气体、气溶胶的因素,误差会更大。如果不进行图片预处理校正,则卫星提供的数据在整个时空上可能会不一致,从而导致估算结果的不准确。
测量误差可能会来自云量和雾霾。对于分类产品而 言,云会因其特性被归类为光谱值最高的土地利用类别,进而错误地估计了云层底下真实的土地类别。连续产品也可能出现错误,如研究降雨对作物产量的影响时,云既和自变量降雨有关,又与解释变量作物产量有关(云影响了植物生物量的光谱测量值)。所以,最好预处理云量和雾霾较多的原始卫星图片,甚至可以直接弃用(在上一篇文章中,作者还提出一种方法,即将多张同地点的卫星图进行对照)。
(1)遥感界关注的变量可能不是环境经济学家想要的。比如,“夜间灯光”数据集包含可测量的夜间亮度,但经济学家却对测量经济活 动感兴趣。 (2)卫星数据无法直接测量整个经济学中广泛关注的某些变量。 (3)在大量云和雾霾覆盖的地方,可能无法用最常用的无源卫星传感器获得数据。
3.知识回顾和拓展
Reference: Donaldson, Dave, and Adam Storeygard. 2016. "The View from Above: Applications of Satellite Data in Economics." Journal of Economic Perspectives, 30 (4): 171-98. Reference: Meha Jain, The Benefits and Pitfalls of Using Satellite Data for Causal Inference, Review of Environmental Economics and Policy, Volume 14, Issue 1, Winter 2020, Pages 157–169.
星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!
点击搜索你感兴趣的内容吧
往期推荐
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口
欢迎扫描👇二维码添加关注