查看原文
其他

使用环境词汇去度量地方政府环境治理:政府工作报告能告诉我们什么信息?

江河JH 功夫计量经济学 2022-12-31

点击蓝字 关注我们 一起摆摊


在分析雾霾污染对经济发展的影响时, 雾霾污染的内生性是一个不得不讨论的问题。其实在早期的研究中,我们一般认为雾霾污染是一个外生变量(天气气象方面),没有考虑其内生性问题;随着环境经济领域研究的探索和发展,越来越多的学者渐渐开始考虑了这一内生性问题,很多计量问题其实都是如此,我们对事物的认知是有一个过程的。

参考资料:

[1]陈诗一,陈登科.雾霾污染、政府治理与经济高质量发展[J].经济研究,2018,53(02):20-34.



现在就出摊

具体来说,一方面,环境污染可能通过减缓城市化进程以及损害人力资本积累渠道来拖累经济发展质量;另一方面,经济发展质量本身也会通过规模效应、技术效应与结构效应来影响环境污染。


为雾霾污染寻找恰当的工具变量,是缓解内生性问题行之有效的方法。复旦大学陈诗一和陈登科教授(2018)在《雾霾污染、政府治理与经济高质量发展》一文中,使用了空气流动系数和地方政府环境治理两个变量作为雾霾污染的工具变量,空气流动系数就不说了,是近几年环境经济领域很火的工具变量了;这篇推文主要关注的是地方政府环境治理这个变量,至于其作为工具变量应该满足的相关性和外生性条件,两位老师在文中已经有一段很好的解释。
那么,究竟如何度量地方政府环境治理呢?已有绝大多数文献采用的是环保人员数量、环境污染治理研发投入、污染税率或者污染治理成本来度量政府环境治理,其问题之一就是这些指标往往侧重政府环境治理的某一方面,很难度量地方政府环境治理政策全貌。Chen et al.(2016)开创性地采用采用政府工作报告中与环境相关词汇总字数占全文总字数的比例作为政府环境治理的代理变量。政府工作报告是依法行政和执行权力机关决定、决议的纲要,是指导政府工作的纲领性文件。因此,政府工作报告中与环境相关词汇出现频数及其比重更能全面地体现政府环境治理的力度,反映政府环境治理政策的全貌。

陈诗一和陈登科教授(2018)参考Chen et al.(2016)的方法,并在其基础上进行了一系列创新。作者选取省级政府工作报告中与环境相关词汇出现频数及其比重作为地级市政府环境治理的代理变量,指标的具体构建步骤如下:

01

(1)手工搜集31个省各年份的政府工作报告,对政府工作报告文本进行分词处理,统计与环境相关词汇出现的频次,并计算其占政府报告全文词频总数的比例。陈诗一和陈登科(2018)使用的与环境相关词汇具体包括:环境保护、环保、污染、能耗、减排、排污、生态、绿色、低碳、空气、化学需氧量、二氧化硫、二氧化碳、PM10以及PM2. 5等。

02

(2)基于中国工业企业数据库构建出地级市重工业占比,然后再将其与省级政府工作报告中与环境相关词汇出现频数或比重交乘,最终得到地级市政府环境治理指标。


今天和大家分享的就是第一步的操作,对政府工作报告文本进行分词处理,统计与环境相关词汇出现的频次可能听起来比较困难,但其实使用python来进行处理相当容易,人生苦短,我用python。之前我也分享过一期有关词频分析的内容,统计了今年的政府工作报告中出现次数最多的几个关键词,并制作了词云图,详见“Python词频词云分析:今年的政府工作报告有哪些关键词?”一文。

这次的操作和上次的差不多,我就使用浙江省2016-2020年五年的政府工作报告做一个演示,报告是从浙江省人民政府官网复制的,大家写论文、做研究的话肯定还是要使用全国31个省、给定时间的政府工作报告,不过这都不是问题,只需要将所有的政府工作报告以特定格式保存在设定的路径中,改一下我的循环就好了。需要我使用的用以演示的政府工作报告及统计结果的朋友,请在后台对话框回复关键词“环境词汇”。

import jieba
for year in range(2016,2021): fp = open(r'D:\爬虫下载\政府工作报告\{}年浙江省政府工作报告.txt'.format(year),'r',encoding='utf-8') content = fp.read() # print(content)
#分词 words = jieba.lcut(content) # print(words)
# 词频分析操作 dic = {} for word in words: if len(word)>1: if word in dic: dic[word]+=1 else: dic[word]=1
#政府工作报告全文词频总数 kw_num = len(dic)#关键词个数 kw_sum = sum(dic.values())#词频总数
#统计与环境相关词汇出现的频次 key_list = ['环境保护','环保','污染','能耗','减排','排污','生态','绿色', '低碳','空气','化学需氧量','二氧化硫','二氧化碳','PM10','PM2.5'] for kw in key_list: try: num = dic[kw] except: num = 0 print(year,kw,num,kw_sum) with open(r'D:\爬虫下载\政府工作报告\浙江省政府工作报告环境词汇词频分析.csv','a') as fp: fp.write('%s,%s,%s,%s\n' %(year,kw,num,kw_sum))

第一步,导入政府工作报告;

-注意要将政府工作报告保存为txt文本文件格式,如果保存为docx读取会有问题。第二步,使用jieba库进行分词;

第三步,统计关键词出现次数。

-我就统计了环境保护、环保、污染、能耗、减排、排污、生态、绿色、低碳、空气、化学需氧量、二氧化硫、二氧化碳、PM10以及PM2. 5这些关键词。

-在统计完与环境相关词汇出现的频次后,我将每年政府工作报告中这些与环境相关的词汇及其出现频次保存在了excel中。


kungfu

点击阅读原文即可留言

学好计量功夫,练就一身绝技!

功夫计量 | Kungfu_econometrics


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存