产业与政策丨基于文本内容分析法的公共数据开放政策研究
作者简介
阳 静
广东省电信规划设计院有限公司注册咨询工程师,主要从事新型智慧城市、数字政府、数据治理等规划咨询工作和数据资源管理研究工作。
赵 扬
广东省电信规划设计院有限公司电信咨询设计院副院长,长沙分院院长,经济师,长期从事新型智慧城市、5G、新基建、云计算、大数据、互联网金融等方面的研究与咨询设计工作。
张超峰
广东省电信规划设计院有限公司工程师,主要从事新型智慧城市、互联网金融、区块链、大数据及数据治理等方面的研究与咨询设计工作。
论文引用格式:
阳静, 赵扬, 张超峰. 基于文本内容分析法的公共数据开放政策研究[J]. 信息通信技术与政策, 2021,47(7):59-65.
基于文本内容分析法的公共数据开放政策研究
阳静 赵扬 张超峰
(广东省电信规划设计院有限公司电信咨询设计院长沙分院,长沙 410008)
摘要:在数据已经正式成为新型生产要素的背景下,公共数据开放问题显得越发重要。通过采用Python编程实现多地公共数据开放政策文本的自动化获取,然后研究发文时间、发文数量和地域分布特点,并进行词频统计及文本相似度计算,进而分析政策总体情况和存在问题,为各地制定相关政策文本提供建议和参考。一是研究各地公共数据的定义问题并搭建其表达框架;二是讨论研究开放对象是否面向所有人;三是针对开放安全问题,拓建政府安全政策的工具维度,并发掘该问题演变趋势。
关键词:公共数据开放;Python;词频统计;文本相似度
中图分类号:G203 文献标识码:A
引用格式:阳静, 赵扬, 张超峰. 基于文本内容分析法的公共数据开放政策研究[J]. 信息通信技术与政策, 2021,47(7):59-65.
doi:10.12267/j.issn.2096-5931.2021.07.009
0 引言
2020年年初,全球各地突发新冠肺炎疫情。据统计,2021年1月15日,全球新冠肺炎死亡病例始超200 万[1],全球防疫工作仍不容松懈。美国战略与国际问题研究中心认为,新冠肺炎疫情期间,检测和踪迹数据跟石油问题同等重要[2]。防疫健康信息码已成为我国防疫常态化的主要标志[3],加之2020年3月,中央文件正式将数据纳入生产要素行列,公共数据开放及其管理越发重要。
回顾我国中央政策文件,我国的“数据开放”大致经历了政府信息公开、政务信息资源共享、公共数据开放和公共数据开发利用的历程。2007年4月的《中华人民共和国政府信息公开条例》(2019年已作修订)是我国首部政府信息公开的行政法规,也是公共数据开放问题可以参考的国家最高法之一。2016年《政务信息资源共享管理暂行办法》对信息共享工作作出规定。2018年3月正式印发的《公共信息资源开放试点工作方案》 是推动公共数据开放的首份中央文件。2020年,国家已对试点省份的公共数据资源开发利用工作进行部署。然而,公共数据开放虽已历经数年,但仍处于初期发展阶段[4]。
目前,国内外围绕公共数据开放政策文本作了一系列研究,大体可分成两类。第一类是不同政策文本的比较研究:如Anneke Zuiderwijk等以政策环境背景、内容、考核指标和公众价值为研究框架,比较分析了荷兰7所政府机构的开放数据政策文本[5];马续补等对我国公共信息资源开放政策进行扩散特征研究,发现发达沿海地区在公共信息资源开放方面具有较强的示范作用,政策扩散呈现区域聚集性及邻近效应[6],同时运用共词分析法研究政策变迁问题[7];冉连等运用内容分析法对数据开放安全进行专题研究,提出数据安全法律保障不足、论述较为宏观粗略、内容供给单一等问题[8]。第二类是同一个政策文本的研究分析,如Kyujin Jung等运用语义网络分析法对韩国《开放公共数据指南》共4162 个关键词进行研究,并指出公共数据开放政策应明确创新型经济生态系统的重要性[9]。
综上所述,虽然政策文件比较和研究较多,但是缺乏公共数据定义、开放对象等基础概念的辨析。为此,本文从政策文本内容分析的视角,在Python编程环境下,运用网络爬虫、词频统计和文本相似度计算等算法,比较和分析我国现有公共数据开放政策文件的若干基础性问题,为各地的公共数据开放工作提供参考。
1 研究路径
1.1 数据自动获取
得益于前期政府信息公开工作成果,直接采用搜索引擎获取政策文本是较为常用的方法,但是因相关度有限,政策文本的手动获取方式效率较低。本文运用Python编程,采用爬虫技术实现数据的自动获取:首先选择搜索引擎和搜索网站,然后解析页面源码数据,再结合xPath实现标签定位和内容捕获,最后保存搜索内容。
1.2 语料的词频统计
语料的词频统计过程及思路如下。
1.2.1 去除标点符号和某些特殊符号
因文本的标点符号和特殊符号较多,为避免干扰统计分析结果,用空格代替标点符号和其余特殊符号。
1.2.2 分词
“结巴”(jieba)是常用的中文分词组件,它采用前缀词典对文件进行高效扫描。实践中,对“结巴”分词结果进行分析,发现主要存在4个直接影响后续词频统计的问题。
(1)长词组分词结果不准确,如对“市大数据中心”的分词结果是“市大”“数据”和“中心”。
(2)新兴词识别困难,如对“区块链”的分词结果是“区块”和“链”。
(3)分词结果出现单个汉字,如出现“市”等。
(4)分词结果很多,且被分析语料越长则分词结果越多。
经测试,问题(1)(2)可以通过采用自定义词典进行分词而解决,问题(3)可以在词频统计时采用过滤单个汉字的办法消除影响,问题(4)则可以在词频统计时采用统计某种词性的方法解决,如使用“结巴”posseg模块标注分词词性。因此,本文采用加载自定义字典以及jieba.posseg模块对语料进行分词处理。
1.2.3 去除停用词
本文结合github中文停用词表以及实际分词结果,迭代形成自定义停用词表。
1.2.4 词频统计
根据前人研究成果“名词短语可描述文本主题”[9],仅对词性为普通名词n进行词频统计。
1.3 文本相似度分析
文本相似度计算[10]是自然语言处理领域的常用方法,但目前在公共数据政策研究方面应用较少。本文运用 Python语言的Gensim工具,建立语料库词典,通过doc2bow函数将已分词文本转化为稀疏向量,形成新语料库词典,然后经Tf-IDF模型处理后计算特征数,进而得到文本相似度。
2 各地政策文本总体情况
2.1 政策文本获取情况
在Python3.5和Chrome85.0.4183的环境下,对百度网页进行网络爬取,设置关键词为“公共数据办法”,截至2020年12月17日,爬取10页,共得到101条数据。
过滤掉非政策文件或重复文件,最终共筛选出15个省级行政区共34部公共数据政策文本(含征求意见稿、送审稿和标准文件)。其中,对于重复文件取发布时间较晚的文件,如2020年8月发布的《广东省公共数据管理办法(征求意见稿)》和2020年11月发布的《广东省公共数据管理办法(送审稿)》,本文取后者作为语料样本。
将这些政策文本按序号、文本名称、省级行政区、发布时间、公共数据定义、开放对象和安全政策等元数据进行存储。其中,“省级行政区”为颁布文本机构所属省级行政区,“发布时间”为文本发文时间或批准时间,“公共数据定义”“开放对象”和“安全政策”为相应的原文描述。
2.2 政策文本总体情况分析
分析元数据“发布时间”可知,国内首部涉及公共数据的地方政府规章由浙江省于2017年5月发布,国内首部针对公共数据管理的地方政府规章由成都市于2018年6月发布,国内首部针对公共数据开放的地方政府规章由上海市于2019年8月发布,内蒙古自治区则于2020年4月率先形成国内首部针对公共大数据安全管理的地方标准,深圳市于2020年7月发布的《深圳经济特区数据条例(征求意见稿)》 或将成为国内首部规范数据活动的地方性法规。
分析元数据“省级行政区”地域分布和各地发文数量,发现政策文件地域分布呈现带状分布特点,具有明显的地域聚集性,主要来自于我国沿海省市、东北三省、内蒙古自治区、四川省和重庆市,并且沿海省市居多。浙江省已颁布9部相关政策文件,上海市已颁布5部,浙江省已颁布4部相关法或制度文件,广东省、山东省和四川省各已颁布3部,北京市和江苏省各已颁布2部,天津市和重庆市等各已颁布1部。
总体来看,我国有半数省市已出台或正在有序推进政策文件出台,浙江省作为公共信息资源开放试点之一,在相关政策文件出台时间和数量上都处于领先位置。
2.3 政策文本存在问题分析
据统计,半数内陆省份暂未制定相关政策,存在缺少国家层面的权威法规和公共数据开放政策数量较少的问题,可能导致政策效力不足[11]。
3 公共数据开放问题研究
3.1 公共数据的定义问题
分析元数据“公共数据定义”,进行词频统计和分析(见图1)。根据图1(a)公共数据定义词云图,搭建公共数据定义的表达框架,包含涉及单位(如“行政机关”)、管辖范围(如“本市”)、履行职责(如“依法”“公共服务”)、来源过程(如“产生”“记录”)和数据格式(如“视频”)等,且涉及单位的表达术语较多。
图1 公共数据定义词频统计分析图
令政策文本总数为N = 34,某词语出现次数为n,某词语出现频率为f,则f = n/N。根据词频统计结果,公共数据定义对于涉及单位主要有两大类分歧,如图1(b)所示。
第一类是政府相关部门概念的分歧,表达术语包括行政机关(f = 0.794)、单位(f = 0.382)、公共管理和服务机构(f = 0.235)、政务部门(f = 0.118)、各部门各单位(f = 0.029)、国家机关(f = 0.029)、党政机关(f = 0.029)。这些概念既有区别又有联系。“国家机关”和“党政机关”概念上有所重叠,前者根据《中华人民共和国宪法(第5版)》,包括国家行政机关、监察机关、审判机关和检察机关;后者根据《党政机关公文处理工作条例》,包含中国共产党机关和国家行政机关。“政务部门”根据《政务信息资源共享管理暂行办法》,指政府部门及法律法规授权具有行政职能的事业单位和社会组织。
第二类是包含除政府以外哪些单位的问题,表达术语包括事业单位(f = 0.588)、企业(f = 0.235)、企事业单位(f = 0.235)、社会组织(f = 0.206)、社会团体(f = 0.059)、产业机构(f = 0.029)。可见,政策文本中有八成认为应包含事业单位,不到半数认为应包含企业,不到三成认为应包含企事业单位以外的社会组织等。
从上述分析结果可见,定义描述缺乏统一,尤其是涉及单位的表达术语种类和关键词较多,组合各异,造成各地公共数据定义有别。有的地方公共数据的定义与政务数据难以区分(如《成都市公共数据管理应用规定》),大部分地方认为公共数据包含政务数据(如《济南市公共数据管理办法》),而有学者则认为公共数据是政务数据的一部分[12],2020年12月,《广东省公共数据资源开发利用试点实施方案》也将具有公共服务职能的企事业单位纳入省级及试点地市政务大数据中心数据服务范畴。
公共数据的定义是最基础的研究问题之一,它与政务数据、社会数据的区别直接影响开放对象、安全、权属、数据要素等几乎所有与之相关的问题,统一公共数据定义是亟待解决的问题之一。
3.2 开放对象问题
开放对象问题主要是围绕是否包括所有人。一般认为,自然人和公民的概念是有所区别的。据《中华人民共和国宪法(第5版)》,我国公民是指具有中华人民共和国国籍的人。自然人是指我国境内的一切具有生命形式的人,不仅包括中国公民,还包括外国人和无国籍人[13]。可见,自然人涵盖的主体对象更加广泛。而全社会一般认为是“自然人、法人和其他组织”的统称(即“所有人”)。分析元数据“开放对象”,进行词频统计分析(见图2),可见有64.7%的文本认为应向所有人开放。
图2 公共数据开放对象词频统计分析图
在我国,政府信息或政务数据的开放对象更多偏向于“公民、法人和其他组织”。例如,《中华人民共和国政府信息公开条例》(国务院令第711号)虽未明确规定政府信息的开放对象,但“公民、法人和其他组织”在全文共出现4次。再如,《沈阳市政务数据资源共享开放条例》规定政务数据开放对象是公民、法人和其他组织。虽然国家层面暂未明确注明公共数据开放对象,但是《北京市交通出行数据开放管理办法(试行)》规定,无条件开放的数据开放对象是所有自然人、法人和其他组织,依申请开放的数据开放对象则需要满足一定条件。在公共数据的定义、界定范围和权属仍存分歧之时,为保障数据安全,《北京市交通出行数据开放管理办法(试行)》对开放对象的分类规定是一种可以借鉴的做法。
3.3 安全政策问题
公共数据开放涉及的关键问题之一是安全问题。将“分类分级”和“分级分类”合并统计到“分级分类”,“个人信息”和“个人数据”合并统计到“个人信息”,得到自定义语料库。分析元数据“安全政策”,其相关文本的关键词云图如图3所示。
图3 公共数据开放安全关键词云图
根据图3中的关键词,研究文献[8]并对政府安全政策工具维度进行拓展,得到6大维度的安全政策工具,分为战略性层面、战术性层面、操作性层面、技术性层面、专题性层面和其它(见表1)。结合图3和表1,判断各政策相关文本的基本特点是:战术性层面政策工具出现次数最多,操作性层面政策工具种类最多,技术性层面较少且出现次数较低,对于热点专题领域大部分文件缺乏相关规定。
表1 安全政策工具维度表
《公共大数据安全管理指南》是公共数据安全专题的地方标准。以该标准文件作为其他安全政策文本基准对象,进行文本相似度计算,结果如图4所示。图4左纵轴是文本名称,右纵轴是发布时间。文本相似度大于0.500的有《德清县公共数据管理办法》 等11地市政策文本,其中有72.7%的文件发布时间在2020年以后。可见近年来,各地对于数据开放安全政策工具的认知呈现达成广泛共识的趋势,这意味着开放安全政策也愈发成熟。
图4 安全政策文本相似度
4 结论与建议
我国正处于“培育数据要素市场”需求之际,公共数据开放工作是其中重要一环。本文运用Python编程,自动获取并比较研究15个省级行政区共34部公共数据政策文本(含征求意见稿、送审稿和标准文件)。
首先从发文时间、发文数量和地域分布3个角度对政策文本进行总体分析,发现公共数据开放相关政策文件存在地域聚集性,且主要集中在沿海省市,浙江省在发文时间和发文数量上都处于领先位置,全国约有一半省市已发文或正在推进相关工作。在缺少国家层面的权威法规和公共数据开放政策数量较少的情况下,可能影响政策效力。然后对公共数据定义、开放对象和开放安全的相关全文进行词频统计。为进行词频统计,本文对语料的预处理过程加以改进,包括加载自定义字典、使用jieba.posseg模块进行分词处理和词性标注以及自定义停用词表等,最后在前人研究基础上仅对词性为普通名词的词语进行词频统计。基于公共数据定义词频统计结果,搭建公共数据定义的表达框架,即包含涉及单位、管辖范围、履行职责、来源过程和数据格式等;且发现各地对于政府相关部门的概念及包含哪些政府以外单位的表达术语存在差异,造成公共数据与政务数据的定义存在界限不清的问题,公共数据定义问题亟待统一和解决。公共数据的开放对象研究主要集中在是否包括所有人,为保障数据开放安全,建议参照《北京市交通出行数据开放管理办法(试行)》,依据公共数据的开放属性进行分类开放。在前人研究成果基础上拓展并搭建政府安全政策工具,分为战略性层面、战术性层面、操作性层面、技术性层面、专题性层面和其他共6大维度,且进一步研究发现战术性和操作性层面政策工具出现次数或种类较多,但是技术性层面和专题性层面政策工具较为薄弱。
同时,以《公共大数据安全管理指南》为基准文本,对开放安全政策文本进行相似度研究,发现相似度大于0.500的大部分在2020年以后发布,这表明各地对于数据开放的安全政策工具正在取得共识,安全政策工具显示出愈发成熟的演变趋势。
5 结束语
目前,我国的公共数据开放政策文件体系正在建立和完善,总体来说处于地方先行的状况,存在对公共数据的定义、开放对象、开放安全等诸多方面规定和认识不一致的情况。建议中央层面加快相关权威法律法规等政策文件的出台,各地加快相关政策文件研究出台,从上而下形成系统性的政策文件保障。
参考文献
[1] 杨睿. 新冠传染性为何超强[J]. 财新周刊, 2020(15):64-68.
[2] Gardner L, Ratcliff J, Dong E S, et al. A need for open public data standards and sharing in light of COVID-19[J]. The Lancet Infectious Diseases, 2021,21(4):e80.
[3] 马续补, 李洋, 秦春秀, 等. 基于三维分析框架的公共信息资源开放政策体系研究[J]. 管理评论, 2020,32(8):143-154.
[4] Zuiderwijk A, Janssen M. Open data policies, their implementation and impact: a framework for comparison[J]. Government Information Quarterly, 2014,31(1):17-29.
[5] 马续补, 张潇宇, 秦春秀, 等. 我国公共信息资源开放政策扩散特征的量化研究——以三大经济圈为例[J].信息资源管理学报, 2020,10(4):15-26.
[6] 马续补, 相雅凡, 刘玮, 等. 基于共词分析的中国公共信息资源开放政策变迁研究[J]. 信息资源管理学报, 2020,10(4):5-14.
[7] 冉连, 张曦. 地方政府数据开放中的数据安全政策研究——基于全国33个地级市政策文本的内容分析[J]. 情报杂志, 2020,39(11):96-103.
[8] Jung K, Park H W. A semantic (TRIZ) network analysis of South Korea’s “Open Public Data” policy[J]. Government Information Quarterly, 2015,32(3):353-358.
[9] 张涛, 马海群. 基于文本相似度计算的我国人工智能政策比较研究[J]. 情报杂志, 2021,40(1):39-47+24.
[10] 张娜, 马续补, 张玉振, 等. 基于文本内容分析法的我国公共信息资源开放政策协同分析[J]. 情报理论与实践, 2020,43(4):115-122.
[11] 张鹏, 蒋余浩. 政务数据资产化管理的基础理论研究: 资产属性、数据权属及定价方法. 电子政务, 2020(9):61-73.
[12] 冷晖. 公民、自然人和法人[J]. 人民之声, 2004(1):44.
Research on opening public data policy based on text content analysis
YANG Jing, ZHAO Yang, ZHANG Chaofeng
(Guangdong Planning and Designing Institute of Telecommunications Co., Ltd., Changsha Branch of Telecom Consulting Design Institute, Changsha 410008, China)
Abstract: Since data was officially regarded as a production factor, the issue of opening public data has been becoming more and more important. This paper acquires policy texts of opening public data in multiple places by means of Python programming, then analyzes their publishing time, quantity and geographical distribution characteristics, and uses word frequency statistics and text similarity calculation, to study the overall situation and existing problems so as to provide suggestions and reference for the formulation of relevant policy texts. Firstly, it investigates the definition of public data and builds the expression framework; secondly, it discusses whether public data should be opening to everyone; thirdly, it expands the tool dimensions of government security policy for the subsequent security issue, and explores the evolution trend.
Keywords: opening public data; Python; word frequency statistics; text similarity
本文刊于《信息通信技术与政策》2021年 第7期
主办:中国信息通信研究院
《信息通信技术与政策》是工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。本刊定位于“信息通信技术前沿的风向标,信息社会政策探究的思想库”,聚焦信息通信领域技术趋势、公共政策、国家/产业/企业战略,发布前沿研究成果、焦点问题分析、热点政策解读等,推动5G、工业互联网、数字经济、人工智能、区块链、大数据、云计算等技术产业的创新与发展,引导国家技术战略选择与产业政策制定,搭建产、学、研、用的高端学术交流平台。
《信息通信技术与政策》官网开通啦!
为进一步提高期刊信息化建设水平,为广大学者提供更优质的服务,我刊于2020年11月18日起正式推出官方网站,现已进入网站试运行阶段。我们将以更专业的态度、更丰富的内容、更权威的报道,继续提供有前瞻性、指导性、实用性的优秀文稿,为建设网络强国和制造强国作出更大贡献!
推荐阅读
征稿启事丨《信息通信技术与政策》2021年第12期“全光网产业与技术研究”专题
你“在看”我吗?