当期荐读 2020年第4期 | 基于共词分析的中国公共信息资源开放政策变迁研究
by图虫创意网
马续补 相雅凡 刘玮 赵捧未 秦春秀
(西安电子科技大学经济与管理学院,西安,710071)摘 要
信息资源日益成为重要生产要素和社会财富,为着力推进重点领域公共信息资源开放,各级政府顺应时代潮流制定相关政策,细致探究我国公共信息资源开放政策变迁规律对今后政策制定有重要意义。本研究收集我国国家层面的467个公共信息资源开放政策文本,基于词语在文本中的位置加权获取政策文本主题词,并在依据政策类型对主题词二次加权的基础上,运用共词聚类的方法得出各时期公共信息资源开放政策制定聚焦点,分析探究政策变迁规律。研究发现,公共信息资源开放四个时期共包含11个政策主题,形成三个鲜明的群组——政府信息公开共享、建设与维护、增值利用,各群组政策变迁呈现不同的变迁模式;在公共信息资源开放整个进程中,政策主题没有出现断层式变化,展现出循序渐进的融合深化态势。
关键词
公共信息资源开放,信息政策,政策变迁,共词分析,政府信息公开,信息增值利用
1 引 言
随着大数据时代的到来,政府的社会治理、产业的培育发展以及公众生活质量的提升都需要更加全面、系统的数据作为基础[1]。习近平总书记指出:“要着力推进重点领域公共信息资源开放,释放经济价值和社会效应”[2]。各级政府纷纷出台有关政府数据公开共享的政策文件为其保驾护航[3-4]。政策变迁是从“旧”政策向“新”政策转变过程中,对“旧”政策的改进、废止和“新”政策的实施[5-6]。我国公共信息资源开放分为政府上网时期、政府信息公开时期、政府信息共享时期和公共信息资源开放时期四个阶段[7],系统地分析公共信息资源开放四个时期下的政策主题变迁,了解公共信息资源开放发展的变化趋势,对今后有关政策的制定与完善有重要意义。
在公共信息资源开放领域,国内学者利用内容分析法、文献计量等方法,对政策内容和政策体系进行了宏观分析[8-11]。对于政策变迁的研究,国内外均较为成熟,Hogwood等对政策变迁的内涵与特点深度剖析,归纳出政策变迁的四种类型,分别是政策创新、政策接续、政策维持和政策终结[12]。国内学者冯贵霞借鉴政策网络分析,对大气污染防治政策进行定性研究,辨识政策变迁的影响因素[13];Huang等将定量分析引入科技领域的政策变迁研究中,通过对1949—2010年中国科技政策文献进行共词聚类,探究政策主题热点变迁规律[14];吴宾则在定量分析的基础上,融合了语义分析的方法,探究我国海洋工程装备制造业领域的政策发展,并系统地刻画其政策变迁路径[15]。由此可见,目前国内外对于公共信息资源开放、政策变迁的独立研究虽已成熟,但缺少对公共信息资源开放政策主题变迁的探究,而其作为保障我国公共信息资源开放总体工作的重要基石,具有较强的研究价值。因此,本研究将共词聚类的方法用于公共信息资源开放政策变迁研究,选取我国国家层面的467个公共信息资源开放政策文本,探究我国公共信息资源开放政策变迁的规律。
2 数据来源及研究方法
2.1 研究框架
为系统地探究我国公共信息资源开放的政策变迁,本文建立了“数据准备-主题词抽取-共词聚类-政策聚焦点分析-政策变迁模式分析”的研究框架(见图1)。首先,在北大法宝、政府网站等地爬取我国国家层面的467个公共信息资源开放政策文本,并对获取的政策文本进行清洗;随后,对政策文本进行预处理,利用基于词语文本位置的Tf-Idf算法,考虑政策文种类型对主题词进行二次加权,为每篇政策抽取主题词;然后,分别对公共信息资源开放四个时期的政策主题词进行低频词剔除和共词聚类处理,结合标志性政策,分析各时期政策聚焦点和政策制定意图;最后,将四个时期的政策聚焦点凝练为政策主题和政策群组,探究各政策群组的时序变化规律,分析我国公共信息资源开放政策变迁模式。
图1 研究框架
2.2 数据准备
本研究以我国1998—2019年4月中央颁布的公共信息资源开放政策文献为研究对象,文种类型包括意见、通知、办法、纲要等共11类。为了确保样本采集的查全率与查准率,最大限度地获得公共信息资源开放相关政策文本,利用检索式=“信息+数据+政务+网站+资料+云计算-信息化部-政务处分-信息学会”检索北大法宝、万方法律数据库和北大法意网等政策法规数据库,并通过浏览中央各部门网站,获取有关公共信息资源开放的政策文本及其基础信息。为保证样本数据的针对性,对样本进行了再次筛选,过滤掉内容宽泛、与公共信息资源开放相关度低的政策文本,最终得到国家层面的政策文本共467篇。
通过对政府上网、政府数据公开、政府数据共享和公共信息资源开放四个时期的政策数量进行统计,进一步归纳总结各时期的变化特征,详情见图2。整体上看,自1998年起,我国公共信息资源开放政策数量基本呈现逐年上升的趋势,并分别于2008年、2017年出现局部高峰,具体分析如下。
图2 公共信息资源开放政策数量年度变化
(1)政府上网时期(1998—2004年3月),即平稳起步期。该时期中央共颁布公共信息资源开放相关政策31个,各年发文量较少。
(2)政府信息公开时期(2004年4月—2013年3月),即曲折进步期。该时期国家层面政策颁布总量猛增,高达169个;政策年发文量变化较大,整体呈现曲折上升的趋势,体现了该时期发展与变革的时代特点。国务院于2007年发布的《中华人民共和国政府信息公开条例》明确了政府信息公开的程序和形式,规定了各机构政府信息公开的职责,是我国公共信息资源开放的标志性政策,为公共信息资源开放进程奠定了政策基础,并引导了2008年政策数量小高峰的出现。
(3)政府信息共享时期(2013年4月—2015年8月),即平缓上升期。相较于上一时期,该时期国家层面政策总量有所下滑,仅56个;公共信息资源开放相关政策发布进入平缓期,每年发文量相差不大,体现了该时期的融合发展、承上启下的特性。
(4)公共信息资源开放时期(2015年9月—2019年4月),即融合发展期。公共信息资源开放时期是前三个时期的融合与发展,该时期下的国家层面政策发布数量有明显增加,中央共制定211个公共信息资源开放政策。2015年国务院发布了《大数据发展行动纲要》,该政策的发布引导了2016年以后政策数量大幅增加,并将长期指引着我国大数据发展和公共信息资源开放的前进方向,推动了2017年发文数量峰值的出现。
2.3 主题词抽取
政策主题词是能够表征政策核心内容的特征词汇[16],利用政策主题词能更简洁直观地展现不同领域政策主题变迁[17-18]。
(1)文本预处理。首先,本研究以《公文主题词表》为词典,利用jieba对政策文本进行分词处理,并对分词的结果进一步去停用词、合并近义词,例如将政务、政府、政府工作统一归为政务与政府工作,完成文本预处理。
(2)基于文本位置统计词频。通过阅读公共信息资源开放政策发现,政策文本内不同位置的词语重要性不同。政策标题是对全部政策内容的凝练,最能反映一篇政策的中心思想;而正文中的一级标题则是对每部分政策内容的总结,代表了该部分政策的制定目标。基于此,本文为不同位置的词语设置权重,位于政策标题等重要位置的词语权重高,具体原则如表1所示。并在此基础上计算每个主题词t的词频Fit:
其中,∑Fit1表示词t在政策i的政策标题中的计数,∑Fit2表示词t在政策i的第一级标题中的计数,∑Fit3表示词t在政策i的其他位置的计数。
表1 主题词抽取文本位置权重设置
(3)主题词抽取。按照词频统计的结果,利用Tf-Idf为每篇政策文本抽取三个主题词,政策i抽取结果Ti可表示为:
其中t1、t2、t3为政策i的三个主题词,Fit1、Fit2、Fit3分别为三个主题词的词频。
(4)基于文种类型二次加权。不同文种类型的政策具有不同政策效力,对政策聚焦点的贡献度不同。基于此,本文对政策进行二次加权,效力级别越高的政策权重越大,具体设置细节如表2所示。并在此基础上计算每个词的新词频F'it:
其中,ω'i为政策i所对应的文种类型权重。二次加权后的政策i抽取结果T'i可表示为:
表2 不同文种类型政策权重设置
(5) 抽取结果。对国家层面的政策467个公共信息资源开放政策文本,通过公式(1)-(4),完成公共信息资源开放政策主题词抽取,形成每篇政策文本的主题词表达列表T'i。共获得政策主题词1401个,其中政府上网时期共有93个,政府信息公开时期共507个,政府数据共享时期共168个,公共信息资源开放时期共633个。
2.4 高频主题词共词聚类
(1)低频词剔除。为减少低频词对主题词 词频统计过程带来的干扰[19],获得更为准确的共词聚类结果,本文参考 Donohue于1973年提出的高频词、低频词分界理论[20],计算政策i的低频词分界点ni:
其中,I1i 表示政策i中出现1次的主题词数量。随后,对各时期每个政策的低频词分界点求平均值得到公共信息资源开放四个时期低频词分界点 Nj:
其中,mj 代表第j个时期的政策数量,nij代表第j个时期各政策的低频词分界点。剔除低频词后,第j个时期政策i可表示为T″ij:
计算后得到N1=5、N2=20、N3=10、N4=15,分别为公共信息资源开放四个时期的政策低频词分界点。按照分界点对低频词剔除后,所有政策T″ij 共包含1306个高频主题词,其中政府上网时期剩余85个(占比91.07%),政府信息公开时期剩余477个(占比94.06%),政府信息共享时期剩余157个(占比93.39%),公共信息资源开放时期剩余587个(占比92.66%),能够代表各时期政策主题。
(2)共词聚类。在低频词剔除后,得到各时期的高频主题词表,并将其导入 SPSS构建出各时期高频主题词共词矩阵,部分数据见表3。借助Ochiia系数分别将公共信息资源开放四个时期高频主题词共词矩阵转化为相似矩阵,并利用 SPSS进行聚类。
表3 高频主题词共词矩阵 (部分数据)
(3)聚类结果。经过以上处理,生成公共信息资源开放四个时期的政策聚焦点聚类图,出现信息系统及安全、政府工作与政府信息公开、交通运输数据共享等在内的13个聚类结果,如图3—图6所示。其中,政府上网时期聚类图中包含两个类别,政府信息公开时期共三个,政府信息共享时期和公共信息资源开放时期各四个,每个聚类结果均代表了各时期公共信息资源开放政策的不同聚焦点。
图3 1998—2004年3月政府上网时期政策聚焦点
图4 2004年4月—2013年3月政府信息公开时期政策聚焦点
图5 2013年5月—2015年8月政府信息共享时期政策聚焦点
图6 2015年9月—2019年4月公共信息资源开放时期政策聚焦点
3 中国公共信息资源开放政策聚焦点分析
本文利用以上处理后生成的公共信息资源开放四个时期政策主题聚类,结合各时期标志性政策,深入分析公共信息资源开放各时期政策制定意图及政策主题聚焦点,具体分析结果如下。
(1)政府上网时期:1998—2004年3月
该时期政策主题聚类结果图中共包含14个高频主题词,形成信息系统及安全和政府工作与政府信息公开两个政策聚焦点,如图3所示。①电子政务是该时期的最高频次主题词,共64次。它的出现标志着我国电子政务时代的开始,政府业务的办理与发布从线下逐步向线上转变,相关政策陆续发布,保障了全国网上政务工作规范化、制度化。②信息系统及安全是该时期政策的聚焦点之一。该聚焦点涵盖了信息系统和信息安全两层主题,彰显了在公共信息资源开放伊始,国家及各部门开始强调信息安全的重要性,确保信息及信息系统安全有效。③政府工作与政府信息公开。《国务院办公厅关于印发〈政务信息工作暂行办法〉的通知》初步确定了政府信息工作的规范,推动了一系列行政、劳动就业、文化教育等政策的发布,彰显了该时期政府信息公开工作已陆续展开,与百姓生活紧密相关的劳动就业、文化教育等领域已首先开始标准化政府信息公开。
(2)政府信息公开时期:2004年4月—2013年3月
该时期政策主题聚类结果图中共包含20个高频主题词,生成政府信息公开及试点建设、交通运输数据共享、信息化工程等三个政策主题聚焦点,如图4所示。①政务和政府工作主题词是该时期最高频主题词,出现的频数为458,表明政务公开及政府工作成为当下公共信息资源开放工作的重点。该时期下的政务公开范畴逐步扩大,在上一阶段文化教育、劳动就业等领域基础上,扩展至环保、工程、商务等多个领域,涉及环保生态环境部、教育部、人力资源和社会保障部等多个国家重点部门。②“政府信息公开及试点建设。《中华人民共和国政府信息公开条例》是我国公共信息资源开放领域的重要法律基石,引导了后续有关财政税收、食品药品、金融银行等领域信息公开政策的发布,推动了该时期政府数据公开范围较上一时期进一步扩大。该时期政府信息公开已成为政府工作的重要组成部分,法律文件的出台更是规范了政府信息公开的范畴与标准。2010年水利部推动水利工程建设领域诚信体系建设,设立了河北、山西、吉林、四川等10个试点省份,在地方行政网站建立“水利建设市场信用信息平台”,以鼓励行业信用信息的公开共享,保证水利建设工作的公开与透明。③交通运输数据共享。政府信息共享成为该时期的新名词,政府各部门在积极主动公开政府信息的同时,初步尝试对交通运输领域的数据实行共享,并努力搭建交通科技信息资源共享平台,促使“共享”主题词出现。④信息化工程。《国家发展改革委关于印发“十二五”国家政务信息化工程建设规划的通知》提出加快建设政务网站的明确要求,积极搭建政务信息平台,推动我国开始将政府信息公开当作一项重要的信息化工程。
(3)政府信息共享时期:2013年4月—2015年8月
该时期政策主题聚类结果图中共包含24个高频主题词,生成民生数据共享、政府网站建设、政府信息公开与审查、云计算与大数据产业等四个政策主题聚焦点,如图5所示。①政府信息公开与审查。监督审查成为该聚焦点下新高频主题词,共出现27次,表明在政府数据共享时期,国家更加强调对政府工作的监管与审查,尤其是鼓励公众对政府各级部门公开其政务信息和其他民生数据工作进行监督和评价, 推动公共信息资源开放朝着更透明、更规范的方向发展。②民生数据共享。在政府信息公开的前提下,政府信息共享进程继续推进,信息共享涵盖的领域不断扩大,由上一时期的交通领域扩展至海洋海事、食品药品等其他民生事业。③政府网站建设。《国务院办公厅关于加强政府网站信息内容建设的意见》明确指出,各部门应主动建设并管理好政府网站,推动了我国政府网络及政务平台的进一步完善。与此同时,数据与资源受到广泛关注,政府各部门严格管理政府数据,做好公共信息资源的收集与存储工作。④云计算与大数据产业。除了对政府信息的发布共享以外,云计算、大数据、“互联网+”等新型主题将成为信息化发展的必然趋势。该时期的公共信息资源开放借力全新的信息技术,展现出良好的服务业态,国家和各部门注重从政府信息中发现新知识,利用政府信息创造新价值,从而提升政府服务能力。
(4)公共信息资源开放时期:2015年9月—2019年4月
该时期政策主题聚类结果图中共包含29个高频主题词,形成政府信息公开、民生数据共享、大数据与创新应用和公共信息资源开放四个政策聚焦点,如图6所示。①政府信息公开、民生数据共享。从“政府上网”时期开始,政府信息公开与共享一直是政策制定的重要聚焦点,也是公共信息资源开放工作的主要组成部分。其主题经历了“政府工作与政府信息公开-政府信息公开与试点建设-政府信息公开与审查-政府信息公开”的变化,涉及的内容也不断增多,信息共享范围逐步扩大,流程与形式趋于稳定。②公共信息资源开放。《中央网信办、发展改革委、工业和信息化部联合印发〈公共信息资源开放试点工作方案〉》确定了北京、上海、浙江、福建和贵州五个公共信息资源开放试点,加强对政府数据的管理与应用,加快了我国公共信息资源开放工作的步伐,引导其进入新的发展时期。各级政府积极学习试点地区的先进经验,并通过制定相关政策为公共信息资源开放提供保障。③大数据与创新应用。该时期下,我国政府更强调数据开发与创新利用,开始建立PPP信息公开平台,探寻政府部门与社会资本合作的新型发展模式,主动发布政府数据,积极维护政务网络安全。除此之外,政府信息利用也大大提高,2017年催生了“食安测”APP,展现了食品安全工作与大数据、信息化、互联网等领域的交融,贵州省政府在官方网站上向民众推广“食安测”,加快了政府数据产品的利用。
4 中国公共信息资源开放政策变迁模式分析
为了进一步探究我国公共信息资源开放政策的变迁模式,将内涵相近、所指工作范畴相似的政策聚焦点归为一个政策主题,例如交通数据共享和民生数据共享可归为政府信息共享主题,共得到政府信息公开、安全审查等11个公共信息资源开放政策主题。然后依据11个政策主题相对应的开放工作内容,将内容相关的主题凝练成一个群组,共形成政府信息公开共享、建设与维护、增值利用三个群组。最后,以公共信息资源开放时期为横轴,将政策主题按隶属群组排列作为纵轴,建立政策变迁分析框架,把各时期包含的政策主题按时期顺序标注,如图7所示。通过分析各群组中政策主题的时序变化,研究我国三个公共信息资源开放政策群组的政策变迁模式和规律,有助于摸清我国公共信息资源开放历程,为规划后续工作,制定相关政策提供参考,具体分析如下。
图7 公共信息资源开放政策变迁
(1)政府信息公开共享群组下的政策变迁为政策接续和政策维持两个模式的融合。①该群组下的政策主题没有出现断层式变化,主题词之间不存在单纯的替代关系,展现出循序渐进的融合深化态势。最初,我国政府信息公开工作主要为政府工作的网上发布和政府信息的网上公开;随后,政府信息公开范围逐步扩大,并开始向政府信息共享转变,政府信息公开内涵得到进一步的提升,政府信息共享成为新的发展主题;最终,公共信息资源开放步入新时代,政府信息的公开、共享与开放三者逐步融合改进、协同发展。②政府信息公开聚焦点贯穿全程,在四个阶段均有不同程度的体现,且公开与共享的范围逐步扩大。在前期的政府上网时期、 政府信息公开时期, 政府信息公开包含了劳动就业、环保、文化教育、社会保障等公共事业数据和其他政务数据,后来逐步扩展到食品药品、环保、文化教育等与人民利益相关的其他事业,到后期更是延伸到体育等休闲娱乐领域。在政府信息公开的基础上,更多领域的数据开始要求实现共享,政府信息出现边公开边共享的状态。政府信息公开是公共信息资源开放的基础性工作,贯穿整个开放进程中,只有政府信息更好、更及时地公开,政府信息的共享与利用才能陆续进行。并且,政府应根据不同时期的特点对已有政策进行改进,呼应时代发展。
(2)建设与维护群组下,政策变迁体现出政策接续和政策终结两种类型。①从政策变迁图中可以看出,该群组下的政策主题虽变化明显,但不存在新旧主题的直接取代关系,后一时期下的主题在旧主题的基础上融入新内容,不断改进发展。在政府上网初期,安全审查、信息系统和政府工作为当下政府数据公开共享的重点;随后,政府工作依然是公共信息资源开放领域的重要内容,国家开始重视信息化大工程建设,并通过开展政府数据共享试点项目促进公共信息资源开放进程,推动政府信息公开与共享融合;在政府信息共享时期,工作重点回归安全审查,并开始强调政府网站的建设。②该群组在公共信息资源开放时期走向“终结”,安全审查聚焦点融入公共信息资源开放聚焦点下,作为其工作内容的一部分;而网站建设的相关内容逐步融入云计算与大数据产业聚焦点下,并作为其子项目继续发挥作用。这体现出,政策内容应顺应时代发展和国家需要,切实为公共信息资源开放服务。不符合主题潮流的政策应对其进行修改,以保证其更好地发挥作用,否则将被时代淘汰。
(3)增值利用群组下的政策主题变迁表现为政策创新的演化类型。在公共信息资源开放后期,政府各职能部门着力推进重点领域公共信息资源开放,注重推动政府信息开发与利用,释放经济价值和社会效应。公共信息资源开放的内涵除了政府信息公开与共享,还包括对信息的开发管理等内容,是对政府信息公开与共享的改进与升华。它强调了在信息公开共享的同时,还应注重对数据的开发利用。政府数据开放不仅能增强政府治理能力,改善政府透明程度,还能通过数据增值开发,促进产业发展,更有助于提升公众的知情权,增加公众的满意度和幸福感。当下,公共信息资源成为重要的社会资源,对政府数据的开放、开发与再利用成为新时代的必然选择,各国政府都在积极行动,促使政府数据释放更大效益。因此,我国要紧跟时代发展,继续推进公共信息资源开放,实现政府信息开放共享再次升级,提升政府的信息服务能力。
5 结 语
本研究考虑主题词在政策文本中的位置,利用Tf-idf算法为每篇政策抽取主题词,并基于政策的文种类型对政策聚焦点的不同影响力对主题词进行两次加权,通过共词聚类得到公共信息资源开放四个时期的政策主题聚类。将各时期政策主题聚类结果与标志性政策相结合,分析各时期政策聚焦点及制定意图。通过对各政策主题的时序变化进行分析,探究公共信息资源开放政策变迁模式。研究发现,公共信息资源开放四个时期的政策形成了政府信息公开共享、建设与维护、增值利用三个群组、11个政策主题,各时期政策主题变迁不存在单纯的替代关系,而展现出不断融合、持续发展的态势。各政策主题所指工作范畴不断变化,与时代发展背景相结合,紧扣公共信息资源开放工作进展,逐步吸收新的工作内容,终结或归并已经成熟的领域。此外,不同群组的政策变迁模式各不相同,表现为多种模式相结合的变迁模式,进而体现我国公共信息资源开放工作大融合的独特发展态势。
通过分析可以看出,我国公共信息资源开放工作已稳步推进,总结了良好的发展经验,也为未来相关工作的开展提出新的要求。今后,中央和地方各级政府应继续落实公共信息资源开放,不断推动相关政策制定,保持当前政策制定的融合深化特点。同时,确保政府信息公开、政府信息共享类政策的基础保障地位,规范政府信息公开共享,不断完善有关公共信息资源开放领域政策,鼓励公众、企业和其他机构积极利用公共信息资源,注重对这些资源的二次开发,共同推进我国公共信息资源开放。
作者简介
马续补,博士,讲师,研究方向为社会化媒体与公共政策量化分析,Email:xbma@xidian.edu.cn。
相雅凡,硕士生,研究方向为公共政策量化分析,Email:18629297124@163.com。刘玮(通讯作者),博士,副教授,研究方向为网络信息计量与评价,Email:weil@xidian.edu.cn。赵捧未,博士教授,研究方向为数字信息资源管理与开发,Email:pwzhao@mail.xidian.edu.cn。秦春秀,博士,教授,研究方向为信息资源组织与检索,Email:cxqin@xidian.edu.cn。参考文献
*原文载于《信息资源管理学报》2020年第4期,欢迎个人转发,公众号转载请联系后台。
* 引用格式
马续补,相雅凡,刘玮,等.基于共词分析的中国公共信息资源开放政策变迁研究[J].信息资源管理学报,2020,10(4):5-14.制版编辑 | 王小燕