查看原文
其他

大数据应用 | 前沿:卫星数据在实证研究中的应用,用其开展因果推断的好处!

数据Seminar 2024-03-13

The following article is from 计量经济圈 Author 计量经济圈

正文


关于下方文字内容,作者:李文琦,加拿大英属哥伦比亚大学经济学,通信邮箱:liwenqiapp@126.com
今天,我们主要介绍一下"卫星数据在实证研究中的应用, 用其开展因果推断的好处!"。与本文产生关联的文章,有夜间灯光数据校对的一些成熟方法推荐中国省/地级市夜间灯光数据release, 1992-2013的面板数据
注:本文由三部分组成,前两部分是这两篇文章的单独分析,第三部分源于综合二者。

1.从上面看:卫星数据在经济学中的应用

这篇文章分别介绍了遥感数据(尤其是卫星数据)的优势、简介、应用和问题这四个方面(阅读笔记遵循原文顺序)。
有四大类优势被列出:
  • 优点一:遥感数据可以以较低的成本(成本低),通过多次大规模的测量(次数多)来得到某些常规方法难以获取的数据特性(可测得“特殊”变量)。同时,遥感  图像或遥感数据还具备客观性,不容易被因贿赂等原因导致政府等机构篡改和误报数据。【举例:通过观测森林大火产生的污染物,来推测胎儿和婴儿的死亡率,这些细小污染物的观测是常规调查方法无法做到的。】

  • 优点二:遥感数据相比传统数据有更高的空间分辨率(观测面积、图片和数据更精细)。也就是说,遥感技术观测的范围和观测值比传统方法更精细、清楚,且观测图片更加清晰。【举例:研究某停车场停车状况时,由于车体的金属比地面具有更大的反射性,这时,利用高空间分辨率的图像就能更准确地观测某停车场内的停车情况, 从而推动相应的研究。】

  • 优点三:遥感数据具有更宽广的地理覆盖范围(范围广)。它不受地理政治气候等边界的限制(全覆盖),并且可以长时间持续观测变量的变化,包括数值、趋势、与其他变量之间的关系等(第二篇文章中,说法为:连续产品 - continous products)。【举例:研究气候变化对不同时期粮食作物中的小麦和大米产量的影响。】

  • 优点四:网上平台提供的免费遥感图像和从图像到数据到数据产品的工具为人们提供了便捷(易得,易处理,此处暂时不考虑一些随机误差和系统误差)。

经济学历史悠久,人类的经济研究涉及面广泛,让一些机器,例如卫星,取代人工操作的技术显然还不够成熟。所以我们仍然在遥感技术甚至是机器技术的初期,需要详细了解它们的原理、应用、优势、问题等才能更好地发展和利用它们。这里作者缩小了研究范围,将大量的遥感数据(可能从除了卫星以外的其他飞行器机器中得到的)缩小为遥感卫星数据,也就是主要讨论卫星,但也没有完全忽视其他类型的遥感数据。
以下是作者提供的关于遥感的相关知识简介,具体知识分类如下:
  • 轨道:大多数遥感卫星围绕着两条轨道运行:与地球旋转同步的和与太阳同步的。与地球旋转同步的轨道解释起来很简单,就是卫星围绕赤道上方的某一点旋转。好处是可以长时间观测卫星涉及地区的变化状况,劣势有两点,一是由于观察范围不全面,导致有些地方不能产生卫星图像,从而被遗漏。二是与地球旋转同步的轨道要求卫星离地表的距离过远,使卫星图像的分辨率不高,难以得出精确的卫星数据。与太阳同步的轨道则有更多的优点,首先它要求卫星离地表的距离比与地球旋转同步轨道的要求要近得多,也就是说卫星图像的分辨率会更高。其次这种轨道运行方法保证了卫星会在每天的同时间、同地点、同光照下测得数据,它的覆盖面极广,包含了南北极。我们可以把这种运行轨道想象成是一根丝带,把地球想象成一个圆球球。丝带围绕着球竖着缠,绕了一圈就是一轮的结束。显然,宽度越大(赤道)越长,过南北极的经度线就越短,球就越瘪,同长度的丝带就可以竖着绕更多圈;同样的时间用同长度的丝带也可以竖着绕更多圈。

  • 传感器和频段:一个遥感卫星可能含有多个传感器,一个传感器也可以从一个或多个频段中观测能量,同时收集不同的数据流。强光谱分辨率的传感器能收集非常多的频段中的信息,判断不同类型、不同程度的光。【举例:植物在其生命周期的不同阶段以不同的频率反射光,卫星传感器通过探测到不同频段,从而得到数据,我们可以推导植物的生长阶段】。作者在这里还提出了无源卫星和有源卫星,说明写在了第二篇文章的阅读笔记里。

  • 中间处理(在第二篇文章中,说法为:预处理):最原始的数据一般叫做水平0 数据,随着数据精准度的上升,水平也依次从 0 到 1 再向上增加。如果卫星经过一个最低点直接观测某地的角度是正确的,但是它在同一个地点观测其他地点的角度却可能是错误的,这种误差可能导致研究的失误。也有可能卫星观测得到某地的卫星图片数据,但由于此张图片的云层过多,影响了频率反射光的准确度,这时我们需要将多张照片叠加相看,综合得出结论。所以有很多方面可能导致原始图片有误差或错 误,作者在这里提出的方法是分析大量图片数据,排除误差项,通过中间处理,提高数据的精准度。

  • 作者提到了两种分类,一种是无监督分类:数据被不加额外条件地分类,比如不被人们固有观念中的分类所影响。另一种是被监督分类:为之前就存在的类别寻找符合的数据。个人认为这两者的主要区别就是第一种是在得到了数据之后,仅通过分析数据内部的关系得到的分类;而第二种其实是人们在分析数据之前就已经对所研究领域有了解,知晓其中的分类原则,然后再把新发现的数据装进本来就知道的分类中。

遥感数据在经济学中的应用(此部分的每一种应用都涉及了很多前人的科研知识, 作者只做了简单综述,我也就简单记下重点)。
  • 夜间灯光:夜间灯光数据与经济活动存在密切的相关性,夜间灯光与 GDP存在线性关系。【典型案例:朝鲜和纽约】

  • 气候和天气:短期的天气波动和长期气候趋势对人类活动有影响。由于搜集数据的天气站非常稀少,研究人员通常通过三个方面来合并观测:气象站的天气数据、更远的更广的数据来源:如云覆盖,云顶温度等】、气候模型。比如,好的天气影响可以使卫星数据能清楚反应局部冲突;坏的天气影响可以反应一定的婴儿或胎儿的死亡率。并且卫星数据的客观性还不会因为人们的忘却而忽视了天气和气候的影响。

  • 地势:卫星数据可以通过研究地势的变化来探求城市土地供应的外生变化来源;研究大型基础设施投资的经济影响(水坝对贫困和农业生产力的影响);对作物实现单产的预测等。

  • 农业土地使用和作物的选择:一方面通过观察种植的密集程度和范围等来研究农业政策对农民的激励效果;另一方面观测农业产量,分析农业生产力。

  • 建筑类型:前沿研究正在使用遥感数据来识别个体,并按类型对这些建筑物进行分类。比如,通过卫星数据,我们能分辨房屋质量、房屋材料、房屋新旧等。

  • 自然资源:毁林可以被卫星数据量化,最早的研究是将卫星数据和实地调查结合起来研究的。卫星数据还可以检测对自然资源产生破坏的违法活 动。同时,卫星数据通过关注海滩质量从而推断旅游业的兴盛与否等。

  • 污染监测:在环境监测的过程中,很容易被政府操控。卫星数据可以提供客观的环境污染数据,于是可以进一步分析环境污染状况。

  • 资源合并:卫星数据的使用可以和从机器那里学到的技术相结合,对感兴趣的现象进行预测和研究。虽然在经济领域用得很少,不过最近也有突 破。

使用遥感数据的潜在问题:经济学家在运用卫星数据时,会碰到一些仅存于当时研究数据或者普遍数据中存在的挑战。这些可能出现的问题可能是数据样本大小、空间依赖、测量误差和隐私问题。
  • 遥感数据集具有复杂性。地球可以被分为上亿个单位,这种高维度数据很难用简单的线性关系建模分析。所以为了更好处理新遥感数据,经济学家需要更新升级所用的工具吗,达到高维空间模型中的平衡。

  • 卫星数据通常显示出很强的空间依赖性,即一个单元很可能与临近的单元有关。并且区别数据被用作自变量还是因变量也是必要的。当遥感数据用作自变量时,则所有估算的回归系数都可能存在偏差。

  • 结合了多种输入的衍生产品在整体解释上也需要谨慎。比如,虽然夜间灯光和收入、贫穷、电力、二氧化碳排放等都有关系,但至少在国家这个层面上,每种情况对灯光的假设是不同的。所以要格外注意数据本身以及数据背后的假设。

  • 测量误差一直存在,并且有时被忽视,比如太阳角度偏差、大气条件阻拦等一些主客观因素。

  • 在越来越高的分辨率下,卫星可以提供更多精准的信息, 这些可能会涉及到隐私问题。

结论:总而言之,遥感数据可以节约大量成本。遥感卫星不断发展成更好的空间、时间、光谱分辨率,并且它们探测的频次也在逐步提高。人们不但可以更精细地研究分类产品,还可以研究连续产品,各种细微的常规方法难以测量的变量以及现实冲突等也都可以被卫星观察。

2. 使用卫星数据进行因果推理的好处和陷阱
本文讲的是使用卫星数据探究因果关系的好处和陷阱,以及其中的联系。作者用经典案例“土地覆盖”来展现卫星数据的工作,以及谈论卫星图片数据的潜在优势和问题。
本文中提到的卫星数据对环境经济学研究的好处主要有三点:
(1):卫星数据的收集相比传统方法更容易得到,尤其在研究土地覆盖这类涉及面积巨大的问题上,显得更加方便且节约成本。
(2):第二个优势与第一个优势是相对的。卫星数据不仅可以方便在大的面积、范围上观测,还可以深入到小范围(传统粗分辨率的普查数据无法做到)。
(3):一直可以连续观测大小区域里的各种变量。优势(1)和(2)与分类产品有关,优势(3)与连续产品有关。
从遥感的角度来说,由于时空分辨率的提高,数据产品可以落脚于更精细、更小范围、平常难以观测的时空尺度上的系统。由于遥感专家发明了免费、易读取的数据产品,政府公司等提供免费的卫星图像,网上平台让专家和非专家们更容易下载和处理这些卫星图像数据,从而方便转化为数据产品,进行研究和应用。
从 1972 年美国 NASA 发射卫星探测器以来,越来越多的卫星被各种国家、组织所投放,并且这些卫星至投放以来一直不停地捕捉地球物状的变化,提供源源不断的卫星数据。这里要进行说明,卫星传感器会在三个方面发生改变:时间分辨率(卫星返回地球同一地点所用时间);空间分辨率(每个数据像素点所捕获的面积);光谱分辨率(卫星测量的不同电磁光谱的波长)。卫星可以是无源的(卫星测得的是地球表面自然反射的能量);也可以是有源的(意味着卫星主动向地球表面发射刺激,地表于是反射刺激,卫星再测量这种来回的活动)
【插入介绍分类产品和连续产品!重要!】对于如何将光谱数据转化为有用的数据产品,遥感科学家发明了多种算法,其中有分类产品(比如将一块土地按用途划分:种植区、工业区等;按土壤成分划分:黑土、红土等);也有连续产品(例如,强调在研究土地覆盖中不同观测物的数值变化。我猜测由于这种变化是要经过持续观测才能得出的,所以叫连续产品)。
尽管遥感数据有很多好处,但人们不应由于它的的优势而忽视了它自身以及带来的问题。最核心的是系统误差(尽管随机误差也很重要),并且我们主要考虑的是问题出现在得到的数据是否准确这一基础环节上,而不是讨论是否正确处理了经过处理后的正确数据与结论之间的关系(事实上,这一部分通常被处理得当)。当卫星产品是随机误差时,如果数据用作因变量,可能会增加标准误差;如果用作自变量,会导致衰减偏差。但卫星产品中很多错误都是系统性误差(一直被认为地错误估计成为某一种形式)。
作者讨论了随机误差和系统误差的潜在来源:
  • 在遥感领域中,如果要验证数据产品,标准的做法是使用一组全新的数据,使用混淆矩阵和一些通用的指标来得到与验证数据相比准确和没有被准确预测的站点数量,从而判断正确与否【混淆矩阵的知识点在第三部分知识拓展里会有体现】。从卫星图像到卫星数据再到数据产品这一系列过程中吗,必须要强调独立数据进行验证的重要性,不仅可以确保数据产品所需的变量都被观测,还可以识别数据集中的潜在错误。【举例:通常降雨量越多的地区,越有可能被认为是洪泛区。可专家们将降雨量最多的地区和洪泛区的卫星地图相对照时,却发现不能完全重合。很可能用洪水灌溉的农作物区被卫星图像误认为是洪泛区】

  • 测量误差可能来源于传感器特性、与太阳和地表有关的卫星角度和大气条件。简单来说,为了准确得到土地覆盖图所需的卫星数据,我们需要收集被地球表面反射的能量。然而原始卫星数据测量的是卫星收集到的所有辐射量(其中有些不是被地球表面反射的)。如果如果大气中存在更多的气体、气溶胶的因素,误差会更大。如果不进行图片预处理校正,则卫星提供的数据在整个时空上可能会不一致,从而导致估算结果的不准确。

  • 测量误差可能会来自云量和雾霾。对于分类产品而 言,云会因其特性被归类为光谱值最高的土地利用类别,进而错误地估计了云层底下真实的土地类别。连续产品也可能出现错误,如研究降雨对作物产量的影响时,云既和自变量降雨有关,又与解释变量作物产量有关(云影响了植物生物量的光谱测量值)。所以,最好预处理云量和雾霾较多的原始卫星图片,甚至可以直接弃用(在上一篇文章中,作者还提出一种方法,即将多张同地点的卫星图进行对照)。

系统误差非常值得关注,它会导致结论的高估或低估。比如,在分类产品中,农业林和人工种植林很可能被卫星数据归类为森林,这可能导致高估森林的收益。在连续产品中,“夜间照明”数据集,如果在一定的光照水平上,卫星数据产品会估计相同  的值,此时就很难有区分。这种系统性误差很可能在高度城市化的地区有体现,因为这些地方光照水平很高,卫星的光照估计值已经饱和。
同时我们要关注跨时间数据一致性的重要性。(1)同一个变量可能由不同卫星以不同方式测量,它们如果不标准化,则很难比较,最好先预处理,以减小差异。(2) 大气影响和云层覆盖的季节性,可能导致特定季节的卫星图像始终浑浊。例如,印度北部空气污染水平每年 10 月至 11 月一直很高,因为这段时间与农业燃烧季节相吻合。
最后,作者做出了假设,即使可以解决所有的随机和系统误差,但哪些卫星数据可以提供经济分析依然存在限制:
(1)遥感界关注的变量可能不是环境经济学家想要的。比如,“夜间灯光”数据集包含可测量的夜间亮度,但经济学家却对测量经济活  动感兴趣。
(2)卫星数据无法直接测量整个经济学中广泛关注的某些变量。
(3)在大量云和雾霾覆盖的地方,可能无法用最常用的无源卫星传感器获得数据。

3.知识回顾和拓展

第一篇文章介绍得很全面,包含了卫星数据(或者是范围更广的遥感数据)的简介, 应用,优势和劣势,在综述的基础上有创新。
第二篇文章感觉像是从第一篇里各个部分零星摘取了一些观点,然后换个说法。不过它还是有一些细节解释,比如详细提到了分类产品和连续产品这两个术语(尽管其中的含义在第一篇文章中已经涉及到了);详细谈到了跨时间数据一致性的重要性等。
我认为比较好的阅读顺序是先读第二篇,粗略了解卫星数据里的一些基本概念,然后再读第一篇类似综述的文章。阅读过程中有些知识点还需要巩固,如混淆矩阵怎么看,如何进行独立数据验证,内生性外生性的原因和影响等。这两篇文章都关注了长期发展领域中某些部分使用不当造成的不可忽视的误差。这令我想起了 p-value 检验,如 Ronald L. Wasserstein & Nicole A. Lazar (2016) The ASA’s Statement on p-Values: Context, Process, and purpose, The American Statistician, 70:2, 129-133 中提到的,我们在研究中通常用到的 p 值<0.05 的判断方法会不会被错误地应用。
Reference: Donaldson, Dave, and Adam Storeygard. 2016. "The View from Above: Applications of Satellite Data in Economics." Journal of Economic Perspectives, 30 (4): 171-98.
Reference: Meha Jain, The Benefits and Pitfalls of Using Satellite Data for Causal Inference, Review of Environmental Economics and Policy, Volume 14, Issue 1, Winter 2020, Pages 157–169.




星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!

点击搜索你感兴趣的内容吧

往期推荐


大数据应用 | 谭海华:探究数据质量在人工智能大模型中的重要性

机器学习 | 陶旭辉、郭峰——异质性政策效应评估与机器学习方法:研究进展与未来方向

加入我们 | 遥感与GIS数据分析师(实习)招聘公告

Python 教学 | 解密 Windows 中的 Path 环境变量

数据伦理 | 如何合规使用开源数据和软件?这几种常见协议你得知道!





数据Seminar




这里是大数据、分析技术与学术研究的三叉路口



    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存