查看原文
其他

新库上线 | 中国政府工作报告文本数据库上线,包括报告全文及90个相关指标

企研数据 社科大数据 2024-04-22

一、前言

政府工作报告是中国各级政府向各级人民代表大会做的年终总结和年度计划,反映过去一年政府在各方面的成绩和主要工作,也体现政府对未来的工作重点和规划布局。作为政府最重要的公开文件之一,其文本内容具备非常高的研究价值。因此企研数据开发了中国政府工作报告文本数据库,为相关研究提供数据支撑。

二、数据库简介

中国政府工作报告文本数据库(China Government Work Reports Database,CGWRD)基于中国中央(1998-2023)、省(2002-2023)和地市(2003-2023)三级政府公开的政府工作报告(以下简称:工作报告)全文所构建。该数据库在统计有关文本指标时,剔除了不完整的工作报告,工作报告全文来源于各政府官方网站,通过爬虫和手工整理获得。

政府工作报告是我国政府日常运行中产生的最重要的文本材料,是研究中国政治最重要的文本材料之一,既是社会了解政府工作的重要渠道,也是政府内部发送信号的重要方式。基于现有文献研究需求,企研数据特开发了中国政府工作报告文本数据库。鉴于数据的可得性,部分地区的数据存在缺失。最终纳入数据库的有6200余份政府工作报告,总字符数达到1亿左右。

CGWRD主要包含以下5个模块,每个模块分为中央、省、地市三张表格:

(1)政府工作报告-基础指标是基于中国各级政府多年来的工作报告全文文本,结合结巴分词等技术构建了反映工作报告文本基本特征的指标库。具体包括总词数(未剔除停用词)、总字符数(剔除停用词)等字段,指标时间跨度为1998年-2023年。

(2)政府工作报告-情感指标是基于工作报告文本全文,并结合现有国内外文献所提供的情感词典和计算方法所构建。现有文献中常用的文本情感语调词典分别是清华大学李军的中文褒贬义词典、台湾大学NTUSD简体中文情感词典、Hownet中文情感词库、大连理工大学中文情感词汇本体和根据中文社交媒体通过机器学习方法构建的Boson中文情感词典。其中大连理工大学中文情感词汇本体库和Boson中文情感词典不仅有情感的正负方向,还有情感的强度。首先更新的是基于NTUSD和Hownet以及Boson情感词库,共三个词库的指标。

(3)政府工作报告-可读性指标是基于工作报告文本全文,并结合现有国内外文献所提供的计算方法所构建。参照Li(2008),王克敏等(2018)和徐巍等(2021)的研究,该指标库构建了反映工作报告文本可读性的三种衡量方法,并统计了计算这三种可读性的基础指标,包括:句均字数、副词连词数和常用词数等指标。

(4)政府工作报告-相似度指标是工作报告文本全文所构建的反映工作报告文本内容调整幅度的指标库。参照Brown and Tucker(2020)的做法,该指标库包含了反映工作报告文本相似度的常用指标,包括文本之间的余弦相似度、杰卡德相似度和欧式距离等,同时考虑到常用词等因素的影响,该指标库同时区分了用TF-IDF加权后的文本相似度和未加权的文本相似度指标。

(5)政府工作报告-其他文本指标是基于工作报告文本全文所构建的反映工作报告文本特征的其他指标,主要包括数字个数、金额个数、百分比个数、数字占比以及金额和百分比占比等信息披露指标。

三、数据库特色

全面的文本数据源

数据库涵盖了中国中央、省市和地市三级政府公开的政府工作报告,提供了丰富的数据源,可以为研究人员提供全面的数据基础,大大提高了数据的可用性和研究价值。

多维度的文本指标体系

数据库提供了多种文本指标,包括基础文本指标、文本语调指标、可读性指标、文本相似度指标以及其他文本指标,可以从多个维度分析和理解文本特征。

强时效性和可持续的数据更新

数据库的时间跨度从1998年到2023年,可以追踪和分析20年来的工作报告变化趋势。随着新一年度的工作报告发布,数据库会持续更新,保持数据的最新性。

四、数据库字段说明

  1. 政府工作报告-基础指标

字段名称字段说明
地区政府的所在地名称
政府层级政府的层级(中央、省级、地市)
年份年份
文本
经过清洗的政府工作报告全文(注:该字段仅在云桌面使用)
工作报告总词数(未剔除停用词)
分词后,工作报告中包含停用词总的词汇数。
工作报告总词数(剔除停用词)
分词后,工作报告中不包含停用词总的词汇数。
工作报告总的字符数未分词,工作报告中总的字符数。
工作报告总的句子数工作报告中总的句子数。
  1. 政府工作报告-情感指标

  1. 政府工作报告-可读性指标

  1. 政府工作报告-相似度指标

备注:在分析政府工作报告的文本时,时间相似度和层级相似度是两个重要的概念。

  • 时间相似度:指的是不同年份或时间段内政府报告内容的相似程度。

  • 层级相似度:指的是不同行政级别(如省级、地市级等)政府报告内容的相似程度。

  1. 政府工作报告-其他文本指标

五、样例数据

因篇幅有限,推文只展示部分字段。完整数据请登录企研·云桌面(cloud.qiyandata.com)或企研·社科大数据平台(r.qiyandata.com)进行查询!

政府工作报告-基础指标(地市)  样例数据

六、数据下载指南

(一)云桌面:全部数据可使用

中国政府工作报告文本数据库已在企研·云桌面(cloud.qiyandata.com)上线,如需获取该数据请登录您的云桌面使用或联系云桌面客服。

扫码咨询云桌面客服

(二)企研·社科大数据平台:部分数据可使用

除“政府工作报告-基础指标”中的“政府工作报告全文”字段仅在云桌面使用外,其余数据已在企研·社科大数据平台(https://r.qiyandata.com)上线!

下载流程:

  1. 连接校园网或登录学校VPN,进入企研·社科大数据平台网站,在网站右上角,点击“IP登录”;
  2. 在搜索框搜索相应关键词,或在导航栏选择需要的专题数据库→数据表→筛选字段等信息→预览数据或下载。
图片来源:企研·社科大数据平台 r.qiyandata.com

推荐试用:

企研·社科大数据平台现为国内各大高校开通3-6月不等的试用期,可通过校内IP访问,查询下载数据。欢迎各位读者朋友向学校/机构图书馆推荐企研·社科大数据平台!

更多详情请查看👉企研·社科大数据平台 | “爆改”新学期,你需要这份数据下载指南!

如需咨询数据,👇请扫码联系客服

长按扫码,联系客服

·END·

星标⭐我们不迷路!

想要文章及时到,文末“在看”少不了!



点击搜索你感兴趣的内容吧

往期推荐


CCAD | 数据推荐:合作社经营异常数据

数据应用推荐 | 集体建设用地入市如何影响国有建设用地市场?——基于机器学习的新证据

每周一图 | 国家乡村振兴示范县分地理区域企业存量数量分布图(2022年)

数据应用推荐 |《数量经济技术经济研究》:ESG评级能否促进企业绿色转型?——基于多时点双重差分法的验证

CCAD | 数据推荐:全国农产品地理标志数据


戳原文,更有料!
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存