查看原文
其他

五大城市PM2.5官方数据可靠性深度验证【北大研究报告】

2016-03-30 GSM 北京大学光华管理学院

导读

随着PM2.5污染的严重性被越来越多地认识,PM2.5数据的质量也成为人们关心的话题。目前,公众判断所在城市PM2.5污染程度最常用的两大数据源,一是美国驻华大使馆(或领事馆)所发布的数据,二是中国环保部的实时播报。然而,中国环保部所发布的数据真实性却不时遭到质疑,例如《华尔街日报》就曾在2012年的一篇报道中称:北京官方的PM2.5数据与美国大使馆的数据不一致!也有不少学者著文,研究探讨中国空气污染数据的人为干扰。一些公众也持怀疑态度,认为环保部门“美化”数据的讨论不绝于耳。

数据可靠性是研究的基石,如果没有高质量的数据真实反映一个城市大气的污染程度,大气污染防治就无从谈起。因此,北大陈松蹊教授带领的统计科学中心和光华管理学院研究团队,选取北京、上海、广州、成都、沈阳五个城市美国使/领馆及其邻近的环保部站点在2013-2015三年间的PM2.5数据,完成了《空气质量评估报告(二):中国五城市空气污染状况之统计学分析》,运用统计学方法交叉验证了美国使/领馆和邻近的环保部站点数据的可靠性。本文是该报告内容第三期连载,前两篇连载文章见文末。



▼以下为报告内容的节选和整理▼


为了交叉验证数据的可靠性,我们分别使用美国使/领馆和邻近环保部站点两个独立数据源的PM2.5数据,分析和比较了描述大气污染不同状态的统计量的一致性和相关系数。同时,在剔除气象因素对数据造成的影响后,使用两个数据源的数据分别计算出各站点的PM2.5的月均值和百分位数浓度。通过多方面、多层次的相互对比和相关性分析,我们发现,使用这两个数据源所得到的空气质量评价,有着比较高的一致性。这可以在一定程度上,为公众对中国主要城市空气污染数据质量的评估提供一个参考依据。


01


数据来源的选取


本报告使用的PM2.5数据,来自五个城市的美国使/领馆及其邻近的环保部站点(北京3个,其他城市2个)。其中环保部的数据始于2013年1月1日,美国使/领馆的数据分别起始于:北京,2010年1月1日;上海,2012年1月1日;广州,2012年4月1日;成都,2012年6月1日;沈阳,2013年5月1日。


北京
上海
广州



成都
沈阳


五城市美国使/领馆(蓝色)和邻近的环保部站点(红色)及相应气象站的地理位置图,飞机符号代表各城市机场所在位置(黑色),图片点击可放大


上图显示了五个城市美国使/领馆以及邻近的环保部站点的地理位置。其中,除了广州的第五中学站离美领馆较远(8公里)外,其他环保部站点均与美国使/领馆的距离不超过6公里。对于所有站点,我们研究的数据均截止于2015年12月31日。需要指出的是,美国使/领馆只公布PM2.5的相关数据,而我国环保部站点则会同时公布其他主要污染物的数据。

如我们在此前发布的《北京城区研究报告》(下载地址附后)中所强调的,气象条件对PM2.5的浓度变化影响显著。因此,在这次报告中也重点观察了气象数据。气象数据主要来源于各个城市的机场观测站。其中,北京首都机场的数据来自于http://weather.nocrew.org/;上海、成都、沈阳的机场数据皆来自于https://weatherspark.com/;广州较为特殊,由于白云机场与美领馆及邻近环保部监测站分别处于白云山的两侧,气象条件会相差较大,所以我们采用的是位于污染监测站点同一侧的国家气象局59287站点的数据。上图也显示了五个城市气象数据所在站点的位置。本报告使用的气象变量包括:逐小时气温、气压、露点温度、风向、风速以及降水。由于相对湿度可以由气温和露点温度完全决定,所以无需考虑。

02


各源头数据初步对比


尽管美国使/领馆和邻近环保部站点物理距离比较接近,但是由于每个站点所在地的污染源、地形和扩散条件不尽相同,所以得到的空气质量统计指标也将不会完全相等。然而,由于每个城市的站点所承受的城市范围内的污染排放压力大体相似,所以如果数据质量好、准确性较高,使用各站点数据得到的空气质量的统计指标,也应具有相同的趋势和较强的相关性。

为了检验美国使/领馆和邻近的环保部站点PM2.5数据的一致性,我们对每一个城市每一个站点的PM2.5浓度数据,计算了“优良空气”、“污染状态”和“严重污染”这三个空气质量状态下的平均持续时间,以及其所占时间比例分布。下面两个表格分别给出了这两类描述统计量的数值与分布值。



*的个数代表检验美使/领馆与邻近的环保部站点持续时间是否相等的显著性水平(无*:p值大于0.05,表示无显著性差异;*:p值介于0.025和0.05之间;**:p值介于0.01和0.025之间;***:p值小于0.01。)



在统计学意义上解读这两个图,美国使/领馆和邻近的环保部站点关于三种空气质量的统计数值有显著不同吗(需要说明的是,统计学意义上的一个统计指标的显著相同或不同,是考虑到了数据的随机变异性及其概率分布)?为了回答这个问题,针对每一个城市,我们利用统计学两样本t检验(一种常用的统计学方法,用以检验两个总体的均值是否相等),分别检验美国使/领馆与每一个邻近环保部站点,在每一种空气状态下的持续时间是否有差异。我们用星号“*”的个数,标明美国使/领馆与邻近的环保部站点,在每一种空气状态下的持续时间不同的程度。星号越多,表明美国使/领馆与环保部站点的持续时间的差异越显著。如果检验结果表明两个站点没有统计学意义下的差别,则无星号。在五大城市共计33个检验中,只有5个带星号,其中有3个在成都,且均为非常显著的不同(3颗星);一个在广州,一个在沈阳,但均为一般显著(1颗星)。


总体而言,从上面两个表可以看到


● 环保部站点和美国使/领馆的距离越近,空气质量描述统计量的数值就越接近,并具有非常相似的分布模式。这说明两个数据源有着基本的一致性。比如北京,四个站点的“优良空气”持续时间都在20小时左右,占比都大约为30%;且“污染状态”和“严重污染”的持续时间分别都在55小时和24小时左右,所占比例分别在69%-72%和17%-19%区间内。


美国使/领馆和绝大多数环保部站点的PM2.5数据,在统计学意义上是高度一致的。


● 环保部站点所显示的“污染状态”和“严重污染”的持续时间,并不一定比美国使/领馆要短,而“优良空气”的持续时间并不一定更长。


● 环保部北京农展馆站点的“污染状态”持续时间要长于美国大使馆,而东四环站点的“优良空气”持续时间则要短于美国大使馆;广州的第五中学站点和沈阳的太原街站点,“优良空气”持续时间比该城市的美领馆要短。这说明环保部并未“美化”数据。


相对而言,成都美领馆与其邻近的两个环保部站点所得到的描述统计量差距较大。为了理清原由,我们将在下文对成都的情况作进一步的分析和阐述。

03


剔除气象因素影响的数据对比


我们观测到的PM2.5浓度主要受三个因素影响:(i)污染物排放,(ii)天气因素,(iii)以上二者的交互作用。我们之前的研究发现北京城区PM2.5浓度值近80%的变异(Variation)可以由天气因素所解释。人们常常将产生严重PM2.5污染的原因归咎于气象因素,然而过量排放才是导致PM2.5污染的根本原因。举例来说,甲地的污染排放比乙地的高许多,但前者有比后者更好的污染物扩散条件(多风、湿度低等),这就使得甲地的PM2.5读数要比乙地低很多。这说明,我们在评估污染排放时要将气象条件的影响剔除掉,这样才能公平地比较甲、乙两地减排措施的实施效果。

由于气象条件是不可控的,大气污染防治的一个关键技术是度量排放对PM2.5的影响,利用数据检测每年的排放是否有减少,减少的量是否使PM2.5的减少达到了预期目标。为了量化在不受气象条件干扰下排放对PM2.5的影响,我们给出了在可比气象条件下每个月关于PM2.5污染的三个“月度指标”:均值、中位数和90%分位数浓度(《北京城区研究报告》中提出了剔除不同年份气象因素变异对PM2.5浓度影响的统计方法)。


以下是自2013年以来各个城市各站点剔除气象因素后的月均值浓度:

注:由于广州的环保部站点在2013年的7、8、10和11月份的数据,有超过90%以上的缺失,沈阳美领馆2013年1月到4月数据也完全缺失,故我们的分析不包括这两个城市的上述月份。此外,北京东四环在2015年10月到12月的数据有80%缺失。


北京


上海



广州


成都


沈阳



剔除气象因素影响的情况下比较,可以得到以下结论:


在观测期间,每一个城市各站点(包括美国使/领馆)调整后的PM2.5浓度的三个月度指标变化趋势非常一致,要么同时下降,要么同时上升。例如,在2014年2月、7月和10月,北京所有站点的月均值浓度,都比相邻月份有所升高。相同的现象也发生在2014年5月和10月的成都。


剔除气象因素后,我们所研究的五大城市有一个共同的特点,利用环保部站点得到的PM2.5月均值和两个分位数指标浓度,与美国使/领馆相对应的三个指标相比,没有系统性偏低的现象。换言之,环保部发布的数据并非总是低于美国使/领馆发布的数据。相反,在相当多的月份,环保部站点的月均值和分位数浓度,还要高于相对应的美国使/领馆的数据。


● 不过,自2014年6月起,成都美领馆的月均值浓度,比其邻近的环保部站点的浓度明显高出一些,这验证了前面两个表格中的结果。关于成都的浓度 47 32461 47 15534 0 0 1680 0 0:00:19 0:00:09 0:00:10 2982异,我们将在下文通过相关系数作进一步研究和解读。


为了进一步检验利用美国使/领馆和环保部站点两个数据源,计算得到的空气质量的三个指标是否存在显著差异,我们首先将各个城市环保部站点的三个“月度指标”分别进行平均,再去分别计算各城市的美国使/领馆与邻近的环保部站点之间在这三个指标上的相关系数(统计学术语,表示了两个变量之间的相关程度,在-1和 1 之间取值,取值接近1表示高度正相关,取值接近-1表示高度负相关,取值接近于0表示无线性相关关系)。



上表给出了三个月度指标在不同时间段的相关系数。我们发现,表中给出的总共60个相关系数中有52个在0.9以上,其中低于0.9的只有8个,最小的相关系数不低于0.55。这表明,在剔除了气象因素后,PM2.5的均值、中位数和90%分位数浓度这三个指标,在美国使/领馆和邻近的环保部站点之间,具有高度的正相关性。最后,我们以三年共计36个月的总体情况进行比较,发现在每一个城市里,美国使/领馆和邻近的环保部站点之间的相关系数在这三个指标上的数值全部在0.86以上。

成都在三个指标的12个相关系数中,有11个不低于0.95。这说明两点:(1)尽管成都美领馆和与其临近的环保部站点两个数据源计算的PM2.5浓度存在显著差异,但利用二者得到的三个月度指标是高度相关的;(2)两个数据源计算得到的PM2.5浓度的差异可能是由于局部污染排放或测量仪器的差异造成的。

综合以上的相关性分析,我们可知,在剔除气象影响后,对比分析美国使/领馆数据与邻近的环保部站点数据,得到的结论更加准确、可靠,同时也再次交叉验证了两大独立数据源数据的一致性。


04


年度污染浓度变化趋势对比


各大城市美国使/领馆的PM2.5观测值,和邻近环保部站点的观测值存在一些差异,可能是由于地理位置的不同所致,也可能是局部排放和污染物测量仪器的不同造成的。为了更全面地检验每个城市在描述空气质量的统计学指标上的一致性,我们比较了美国使/领馆和邻近的环保部站点在剔除气象因素后的年度变化差值,其中我们将环保部各个城市的站点的浓度结果做了平均。气象因素调整后的年度月浓度差值,是某年某月的指标浓度(如均值或90%分位数)减去该月在其它年度的指标浓度。

下图分别给出了几个城市(报告为五城市,此处以北京、上海、成都为例)的美国使/领馆和邻近的环保部站点,2013年1月-2015年12月共36个月的PM2.5的年度月均值浓度差值及其95%置信区间(指统计量有95%的概率落在这个区间内)。针对各个月份,我们进行了统计学检验(5%显著性水平),查看两个年份之间的差异是否显著大于0(代表污染增加)或显著小于0(代表污染减少)。红色代表显著增加,黄色代表增加但不显著,浅蓝代表减少但不显著,深蓝代表显著减少。


北京


上海


成都

北京、上海、成都美国使/领馆与邻近的环保部站点剔除气象因素后的PM2.5月均值浓度(微克/立方米)年度变化对比


从上图中,我们可以得到以下两大要点:

● 在36个PM2.5月均值浓度年度变化的比较中,美国使/领馆与邻近的环保部站点,基本具有一致的变化结果,大多数月份要么同增,要么同减。以北京为例,两个数据源的PM2.5月均值浓度年度变化有24个月是完全一致的(增减趋势相同,显著性也相同),有10个月是接近的(增减趋势相同,显著性不同),只有两个月得到完全相反的结论;在上海,两个数据源则有24个月完全一致,12个月接近,没有相反的结论;广州20个月完全一致,6个月接近,2个月相反的结论;成都20个月完全一致,12个月接近,只有4个月得到完全相反的结论;沈阳16个月一致,10个月接近,两个月有相反的结论(共28个月)。


2015年与2013、2014年同期相比,五个城市的PM2.5污染水平都有不同程度的下降(除了上海2015相比2014),尽管美国使/领馆和环保部站点所展现的结果在显著性方面有所不同,但基本的趋势是一致的。例如,2015年相比2013年,除了3月份外,位于北京的美国大使馆和邻近的环保部站点的PM2.5月均值都是减少的。

05


总结与建议


通过对中国五大主要城市2013年-2015年的PM2.5数据,结合气象数据进行统计分析,课题组得出了以下主要结论,并给出了相应建议:

1

由美国使/领馆和邻近的环保部站点的原始PM2.5数据计算得出的评价空气质量的统计指标,具有很高的一致性与可比性。

我们运用统计学的方法,验证了这两个独立数据源的数据均具有较高质量。分析表明,在这五个城市中,这两个来源的数据有着一致可比的PM2.5月均值,中位数和90%分位数。这种一致可比性,也体现在空气质量三个指标的年度变化以及北京、沈阳两城市的冬季供暖效应上(见连载二)。

2

需要强调的是,我们的分析结果,并不能说明在其它地区的数据也是可靠的。

其它城市的数据可靠与否,同样需要对其数据进行系统分析后才能得出结论。我们认为,原始污染数据的可靠性是大气污染防治的本钱、底线,倘若数据本身的质量有问题,那么基于数据的研究都是徒劳的,这也是这份报告不断交叉验证分析美国使/领馆和邻近的环保部站点两大数据源的数据是否一致的原因之一。我们看到,目前空气质量已经被列入各级政府官员的政绩评判标准中,对数据进行人为干扰的风险或许也将提高。对中国大气污染数据质量的区域性监控,应是大气污染防治的基本任务之一。


本期内容节选并整理自北京大学光华管理学院和北京大学统计科学中心团队于2016年3月4日发布的《空气质量评估报告(二):中国五城市空气污染状况之统计学分析》。您可以通过点击“阅读原文”下载报告全文。

该研究团队2015年《北京城区研究报告》中文版下载地址:http://www.stat-center.pku.edu.cn/Stat/Uploads/Files/[20150421_0913]Air%20report.pdf

往期连载


(一):北京、上海、广州、成都、沈阳五城市PM2.5污染状况对比及分析


(二):供暖为北方的冬季增加多少PM2.5?(以京、沈为例)

课题组成员

梁   萱,北京大学光华管理学院博士研究生
李   硕,北京大学光华管理学院博士研究生
张澍一,北京大学光华管理学院博士研究生
黄   辉,北京大学概率统计系,北京大学统计科学中心助理教授
陈松蹊,北京大学光华管理学院,北京大学统计科学中心讲席教授,课题负责人


更多资讯请关注北大光华官方微信(gsmpku)


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存