使用环境词汇去度量地方政府环境治理:政府工作报告能告诉我们什么信息?
点击蓝字 关注我们 一起摆摊
在分析雾霾污染对经济发展的影响时, 雾霾污染的内生性是一个不得不讨论的问题。其实在早期的研究中,我们一般认为雾霾污染是一个外生变量(天气气象方面),没有考虑其内生性问题;随着环境经济领域研究的探索和发展,越来越多的学者渐渐开始考虑了这一内生性问题,很多计量问题其实都是如此,我们对事物的认知是有一个过程的。
参考资料:
[1]陈诗一,陈登科.雾霾污染、政府治理与经济高质量发展[J].经济研究,2018,53(02):20-34.
现在就出摊
具体来说,一方面,环境污染可能通过减缓城市化进程以及损害人力资本积累渠道来拖累经济发展质量;另一方面,经济发展质量本身也会通过规模效应、技术效应与结构效应来影响环境污染。
陈诗一和陈登科教授(2018)参考Chen et al.(2016)的方法,并在其基础上进行了一系列创新。作者选取省级政府工作报告中与环境相关词汇出现频数及其比重作为地级市政府环境治理的代理变量,指标的具体构建步骤如下:
01
(1)手工搜集31个省各年份的政府工作报告,对政府工作报告文本进行分词处理,统计与环境相关词汇出现的频次,并计算其占政府报告全文词频总数的比例。陈诗一和陈登科(2018)使用的与环境相关词汇具体包括:环境保护、环保、污染、能耗、减排、排污、生态、绿色、低碳、空气、化学需氧量、二氧化硫、二氧化碳、PM10以及PM2. 5等。
02
(2)基于中国工业企业数据库构建出地级市重工业占比,然后再将其与省级政府工作报告中与环境相关词汇出现频数或比重交乘,最终得到地级市政府环境治理指标。
这次的操作和上次的差不多,我就使用浙江省2016-2020年五年的政府工作报告做一个演示,报告是从浙江省人民政府官网复制的,大家写论文、做研究的话肯定还是要使用全国31个省、给定时间的政府工作报告,不过这都不是问题,只需要将所有的政府工作报告以特定格式保存在设定的路径中,改一下我的循环就好了。需要我使用的用以演示的政府工作报告及统计结果的朋友,请在后台对话框回复关键词“环境词汇”。
import jieba
for year in range(2016,2021):
fp = open(r'D:\爬虫下载\政府工作报告\{}年浙江省政府工作报告.txt'.format(year),'r',encoding='utf-8')
content = fp.read()
# print(content)
#分词
words = jieba.lcut(content)
# print(words)
# 词频分析操作
dic = {}
for word in words:
if len(word)>1:
if word in dic:
dic[word]+=1
else:
dic[word]=1
#政府工作报告全文词频总数
kw_num = len(dic)#关键词个数
kw_sum = sum(dic.values())#词频总数
#统计与环境相关词汇出现的频次
key_list = ['环境保护','环保','污染','能耗','减排','排污','生态','绿色',
'低碳','空气','化学需氧量','二氧化硫','二氧化碳','PM10','PM2.5']
for kw in key_list:
try:
num = dic[kw]
except:
num = 0
print(year,kw,num,kw_sum)
with open(r'D:\爬虫下载\政府工作报告\浙江省政府工作报告环境词汇词频分析.csv','a') as fp:
fp.write('%s,%s,%s,%s\n' %(year,kw,num,kw_sum))
第一步,导入政府工作报告;
-注意要将政府工作报告保存为txt文本文件格式,如果保存为docx读取会有问题。第二步,使用jieba库进行分词;第三步,统计关键词出现次数。
-我就统计了环境保护、环保、污染、能耗、减排、排污、生态、绿色、低碳、空气、化学需氧量、二氧化硫、二氧化碳、PM10以及PM2. 5这些关键词。
-在统计完与环境相关词汇出现的频次后,我将每年政府工作报告中这些与环境相关的词汇及其出现频次保存在了excel中。
kungfu
点击阅读原文即可留言
学好计量功夫,练就一身绝技!
功夫计量 | Kungfu_econometrics