查看原文
其他

文本相似度计算及政策量化分析

杜弘斌 社科学术汇 2022-06-09
随着信息时代的到来,文本挖掘成为了帮助人们高效地解读信息的重要工具,其中文本相似则是信息处理中的主要算法,而文本挖掘为分析政策文本提供了又一种分析方式,在解读政策特征和关联性方面具有重要意义。
一、文本相似度计算
[1]王春柳,杨永辉,邓霏,赖辉源.文本相似度计算方法研究综述[J].情报科学,2019,37(03):158-168.
[2]陈二静,姜恩波.文本相似度计算方法研究综述[J].数据分析与知识发现,2017,1(06):1-11.
研究背景:随着信息时代的到来,网络上充F斥着大量的信息,人们对文本信息的深度挖掘和快速获取有了更多的需求,例如搜索引擎、自动问答、文献查重和推送等,其中文本相似度的计算是文本挖掘的主要算法,其中有基于字符串的、语料库的、知识库的算法等,因此梳理相似度计算算法,对探究未来相似度计算的研究方向具有重要意义。
模型方法:1)基于表面的文本相似度,包括基于字符串和基于术语的相似度,有N-GramDice、余弦相似性等,大多不适用于长文本;2)基于语义相似度,包括基于知识库,例如HowNetWordNet等同义词库,也包括基于语料库的词袋模型,如LSALDA等和神经网络模型的Word Embeddings计算文档的最小移动距离(WMD)求解两个文档之间的相似度。
研究结论:文献[1]从表面文本相似度计算方法和语义相似度计算方法两方面进行阐述,形成较为全面的分类体系,其中语义相似度计算方法中的基于语料库的方法是该领域最为主要的研究方向。文献[2]列举出了4类计算方法,基于字符串的方法、基于语料库的方法、基于世界知识的方法和其他方法。其中基于神经网络和基于世界知识的方法以及针对跨领域文本的相似度计算将成为该领域的发展趋势。
[3]张涛,马海群.基于文本相似度计算的我国人工智能政策比较研究[J].情报杂志,2021,40(01):39-47+24.
研究背景:自1956年麦麦卡锡提出的人工智能概念之后,直到大数据的出现加速了人工智能的发展并加速了各国产业的发展,我国也出台了一系列的人工智能政策,这些政策备受关注,但由于政策的区域不同,所发布的差异也较大,因此政策的比较研究和重点关注内容的研究较为重要。
数据来源:一是《规划》,该文件是国务院发布人工智能产业布局的战略性政策。二是20162019年我国20 个地区发布的省级政府层面人工智能发展行动计划、实施意见或实施方案。
数据处理方式和模型选取:
1. 使用jieba 工具对文本进行分词、去停用词等预处理操作,将文本数据转换为可分析处理的初始格式。去除小于5个字符的超短语句,通常为无效语句。
2. 使用python 语言Gensim 工具中的BOW 模型、TFIDF模型和余弦相似度。
研究结论:新兴产业、产业升级、人才队伍、智能服务、社会治理等内容在各地区人工智能政策制定层面整体关注最高,呈现出政策制定的相似性。安徽省、辽宁省所制定的政策比较完整和全面,甘肃省、黑龙江省在政策制定中部分内容较为突出,且逐渐形成人工智能产业发展区域特色,呈现出政策制定的差异性。
与同类研究相比较的优势:文献[3]使用的方法是传统的余弦相似度计算方法,但是近两年国内外的研究成果大多是利用人工智能技术解决科学性问题,针对人工智能政策本身的内容研究较少,文献[3]比较了区域之间政策的差异性,为人工智能产业发展提供了政策建议。
[4]梁晓贺,田儒雅,吴蕾,张学福.基于超网络的微博相似度及其在微博舆情主题发现中的应用[J].图书情报工作,2020,64(11):77-86.
研究背景:随着信息时代的到来,微博得到了蓬勃的发展,微博是一种用户产生内容( User Generated ContentUGC) 模式,这些信息通过微博用户的关注、转发、评论关系实现以点到面的快速传播,这极易形成舆情事件。面对大规模的微博文本,高效、准确地识别主题,对于舆情动态监控具有重要意义。
数据来源:监测时间选取为2016827日—2016915日,获取无籽葡萄系打避孕药这个谣言所包含的舆情信息,具体包括ID 号、文本内容、发布时间和发布用户、转发微博账号、转发微博内容。
模型选取:构建微博舆情主题发现超网络模型,包含的层子网,分别是社交子网”“时序子网”“情感子网关键词子网。使用超边相似算法计算各层的相似度,再通过层次分析法计算各层的权重。1)社交相似度参照布尔模型并利用社交子网中用户的转发关系计算超边的社交相似度;2)时序相似度,将微博舆情演化阶段划分为潜伏期、发生期、持续期和恢复期期4个阶段,参照概率模型计算;3)情感相似度,识别文本中的情感词、表情符号和程度副词等并计算超边情感强度,再计算情感相似度;4)关键词相似度则使用传统的余弦相似度。
研究结论:论文所提出的相似度方法有助于提升微博舆情信息的主题聚类效果,特别是对于文字性表述相似程度高的微博信息,具有明显的主题区分性。
与同类研究相比较的优势:对于微博的短文本相似度计算方法来说,仍存在一些缺陷,虽然有些方法考虑了语义问题,但在处理稀疏性文本和信息量少的文本上,准确度较低,并且在非文本相似度的计算方法上,大多只是单一社会网络,而微博舆情的发生是多种数据关系的融合。文献[4]使用了超网络模型,通过4层子网主题研究构建了一套超边相似度计算方法,有效提升了微博主题聚类方法。
[5]沈思,孙豪,王东波.基于深度学习表示的医学主题语义相似度计算及知识发现研究[J].情报理论与实践,2020,43(05):183-190.
研究背景:随着海量医疗数据的涌现,大量的生物医学信息,比如,疾病、基因和药物等信息以非结构化的方式呈现在科研文献中,文献相似度研究可以有效标记和关联不同文献,从语义的角度判断主题间的关系,为主题关联研究做参考。
数据来源:本研究采用肿瘤学领域复合影响因子最高的《中国肿瘤》《中华肿瘤杂志》《中国肺癌杂志》《中国肿瘤临床》《中国癌症杂志》《中华肿瘤防治杂志》《肿瘤防治研究》和《中国肿瘤生物治疗杂志》8个期刊作为样本数据来源期刊。
数据处理和模型选取:使用标注规则对肿瘤期刊全文本中的疾病、基因、致病因素和药物信息进行人工标注,由情报学和医学的专家完成。在模型选取上,先要基于LDA 模型进行期刊全文本中相关主题的提取,通过计算困惑度获得最佳主题个数。然后利用主题词嵌入表示模型TWELDA模型生成的单词主题对进行词嵌入表示。使用BiLSTM替换Siamese Network中的神经网络结构,以此判断输入的文本是否语义相似,再通过余弦相似度计算向量之间的距离。
研究结论:该研究所提出的相似度计算方法在验证集中的预测F值达94%,最后通过对测试集数据进行聚类分析,从高、中、低频以及未进行临床注册实验的角度对疾病和关联基因进行分析,发现当前的热门研究以及未来可能成为研究热点的靶点基因。
与同类研究相比较的优势:提出了一种基于深度学习文本表示的医学文献主题语义相似度计算方法。借鉴基于主题词计算主题相似度的基础上,在对医学全文本对象中疾病、基因、致病因素、药物等能有效帮助医学知识发现的领域知识标注的基础上,利用深度学习相似度计算模型Siamese Network分析医学文本间的相似性,丰富了目前医学文本中疾病—基因等实体关联关系在知识发现中结合主题的研究。
[6]刘萍,彭小芳.基于形式概念分析的词汇相似度计算[J].数据分析与知识发现,2020,4(05):66-74.
研究背景:词汇是人类语言和思维的基本单元,而词汇相似度计算是对词汇间复杂关系的定量度量。但现实中很少存在能够在文章中进行互换而不影响原来句子表达的相似词汇,因此词汇相似度计算更多是从语义距离的角度考量,这里既包含词汇语义相似关系也包含语义相关关系,提出一种新的词汇相似度计算方法。
数据来源:本文以信息检索领域为例,选取2006-2016年国际会议SIGIR收录的论文为实验数据,共计693篇。
模型选取:主要包含三个步骤:1FCA主题定义和模型表示;2FCA词汇相似度计算方法,两个词汇间的相似度不仅取决于这两个词汇对应的相同维度的主题数量,还取决于两个主题集合中不同的主题对之间的语义关联度。两个词汇间的相似度是一个由主题相似度构成的函数,而主题之间的相似度可以通过其在概念格中的结构位置来计算,主要考察两个主题节点的最近公共父节点深度和最短路径长度。3)以信息检索领域为例,对基于FCA 的词汇相似度计算进行实证研究。
研究结论:基于形式概念分析的词汇相似度计算方法有效利用了词汇对应的主题语义关系,能更好地反映词语之间的关联性。
与同类研究相比较的优势:文献[6]在一个新的视角,即从主题层面研究关键词的关系。在文档和词汇之间加入主题层,通过形式概念分析挖掘隐含主题及层次关系,将词汇项映射到主题层级,提出一种基于主题相似度定量刻画词汇相似度的计算方法。这种基于形式概念分析理论FCA方法在精准率和召回率上都明显优于FastText 词向量方法,展现了该方法的有效性和潜在优势。
[7]赵琪,杜彦辉,芦天亮,沈少禹.基于capsule-BiGRU的文本相似度分析算法[J/OL].计算机工程与应用:1-9[2021-06-10].http://kns.cnki.net/kcms/detail/11.2127.TP.20200826.1635.010.html.
研究背景:传统的文本相似度的计算方法,如N-Gram、余弦相似等方法没有考虑到上下文信息,同时在特征提取时存在特征稀疏和维度爆炸的问题,随着深度学习的发展,利用深度学习的方法研究文本相似度任务成为了如今的主流方法,如word2vecCNNLSTMCNN-BiLSTM等。
数据来源:使用QuoraQuestion Pairs 数据集和MRPC(Microsoft Research Paraphrase Corpus)数据集进行实验。
模型选取:首先使用互注意力机制分析重要的单词赋予较高的权重;其次将胶囊网络(capsule)和双向门控循环单元网络(BiGRU)相结合,将提取出的两个层次的特征融合得到文本的多层次特征;同时对将传统的胶囊网络进行改进,将与文本语义无关的单词视为噪声胶囊,赋予较小权值,从而减轻对后续任务的影响。
研究结论:将传统的胶囊网络进行改进,将与文本语义无关的单词视为噪声胶囊,赋予较小权值,从而减轻对后续任务的影响。针对文本相似度的任务,在文本特征矩阵提取前加入互注意力机制,对于待分析的两个文本,通过计算一个文本中单词与另一文本中所有单词的相似度来对词向量赋予权值,从而能更准确地判断文本的相似度。实验结果证明,优于其他方法。
与同类研究相比较的优势:卷积神经网络通过对词向量矩阵进行处理,从而提取文本的局部特征,但不能考虑文本的上下文信息,有时不能表达文本的真正的含义;循环神经网络将文本作为一个序列,可以考虑词语的顺序,提取文本的全局特征,但对于长距离的依赖关系,不能很好地提取文本特征。文献[7]提出的capsule-BiGRU模型将两种网络的文本处理,并将文本的局部相似度矩阵和全局相似度矩阵进行融合,从而能更准确地判断文本的相似度。
[8]陈观林,侍晓龙,周梁,翁文勇.基于深度强化学习的文本相似语义计算模型[J].郑州大学学报(理学版),2020,52(03):1-8.
研究背景:相比于传统的基于统计的语义相似计算模型,基于机器学习和深度学习的语义相似计算模型能更加细致地表达句子的语义特征和结构特征,比如词向量,LSTM等,从而更加广泛的应用与问答系统和新闻推荐等领域。
数据来源:网络爬取数据,包括一整套汽车名称数据、汽车的配件信息以及售后信息等,用户同样会提供他们收集的汽车信息的数据库,并将这两个数据库的信息进行整合,使得相同型号的汽车信息能被整合到一起,但是用户提供的汽车名称和本文数据库中的汽车名称不完全相同,需要使用语义计算的方法将用户提供的名称和数据库中的车辆名称进行相似性匹配。
模型选取:深度确定性策略梯度算法(DDPG),是一种强化学习算法,使用策略梯度方法来更新神经网络的参数,之后将强化学习算法和Siamese LSTM 模型进行融合,训练出具有一定自动蒸馏句子能力的语义相似计算模型。
研究结论:文献[8]将深度学习算法和强化学习算法结合起来研究,通过使用强化学习算法来改善LSTM模型提取语义时可能的语义丢失现象,在语义相似计算模型Siamese Network上取得了很好的效果。
与同类研究相比较的优势:深度学习的语义模型可以较好地表达句子的结构信息,但是它在处理长句子过程中会因为反向传播算法而带来梯度消失问题,从而丧失很多语义信息,尤其是句子靠前部分的词语信息,因为梯度很难传到靠近前面词语的位置。文献[8]基于Siamese Network模型,加入强化学习的方法,通过一系列句子词语蒸馏的方法,将句子中不重要的词语蒸馏出去,从而可以改善LSTM 进行语义提取过程中对重要的词语学习不到的问题,实验结果表明该方法对中文句子有不错的效果。
[9]王振振,何明,杜永萍.基于LDA主题模型的文本相似度计算[J].计算机科学,2013,40(12):229-232.
[10]张超,陈利,李琼.一种PST_LDA中文文本相似度计算方法[J].计算机应用研究,2016,33(02):375-377+383.
[11]张璐,芦天亮,杜彦辉.基于WMF_LDA主题模型的文本相似度计算[J].计算机应用研究,2019,36(10):2916-2919+2951.
研究背景:TFIDF的向量空间模型文本相似度计算方法是最广泛使用的方法,这种方法以词在文本中出现频率以及在文本集中出现该词的频率来表征词的权重,通过计算向量之间的余弦值来计算文本的相似度。但这种方法无法分辨同义词和多义词的,而LDA对于计算文档相似度具有重要意义。
数据来源:文献[9]使用复旦中文语料库,文献[10]使用谭松波中文文本分类数据集,文献[11]综合采用复旦大学语料库、腾讯新闻语料库、搜狗实验室新闻语料库、凤凰新闻网、网易新闻语料库、人民网、维基百科等多个中文文本语料库。
模型选取:文献[9]使用LDA模型,在相似度计算中使用JS距离进行计算,是KL距离的对称版本。文献[10]综合三个文本集的LDA 模型得到PST_LDA 模型,再结合模型输出的三个文本主题分布,分别利用JS 距离公式计算文本间的距离。文献[11]使用WMF-LDA进行主题建模,在相似度计算中使用word2vec对词汇进行量化,并使用余弦相似度计算夹角。
研究结论:文献[9]利用LDA建立了文本主题空间,增强了文本的向量表示,大大缩小了文档的维度,加快了计算速度,从而提高了聚类效果。文献[10]使用PST_LDA方法可以提高文本聚类的准确度,降低文本聚类的时间消耗。文献[11]使用WMF-LDA模型可以降低词语规模、减少主题建模时间,并提高文本聚类的准确率。
与同类研究相比较的优势:文献[9]使用LDA模型计算文本相似度,在一定程度上解决了数据空间的稀疏性和同义词的。文献[10]对传统的LDA 方法进行改进,即考虑到名词、动词对文本分类的重要程度,将词类分为名词、动词和其他词三类,并考虑了不同词性的词项对文本相似度计算的贡献差异,利用文本的语义信息提高了文本聚类准确率。文献[11]结合词语语义和词性信息,利用文本集之间的领域差异,改进了传统的LDA模型在文本相似度计算领域的应用。
[12]NECULOIUP, VERSTEEGH M, ROTARU M. Learning text similarity with Siamese recurrentnetworks[C]. Proceedings of the 1st Workshop on Representation Learning forNLP, Berlin, 2016:148157.
研究背景:文本表示在自然语言处理中至关重要,文本的处理均依赖对文本表示,也就是表达文本间的语义相似性和非相似性。同时,在计算语义相似性时常常会出现一词多义的情况。
数据来源:基于手工制作的职位分类法的小数据集。
模型选取: LSTM通过加入隐层的表示方式,在一定程度上解决了RNN在处理长序列时梯度消失的问题。孪生网络是共享权重的双分支网络,它包括两部分相同的网络,最后通过一个energy function合并在一起。该网络包含四层双向LSTM节点,最后一个BiLSTM层的每个时间步的激活值被平均化,从而产生一个固定维度的输出。这个输出再通过一个densely connected前馈层进行投影。
研究结论:提出了一种深层架构,用于学习可变长度字符序列的相似性度量。该模型将字符级双向LSTM堆栈与孪生结构相结合。它学会了只使用关于字符串对之间相似性的信息,将可变长度的字符串投影到固定维度的嵌入空间中。此模型应用于基于人工标注的分类任务。
与同类研究相比较的优势:灵活性比较高,即字符串的表示可以作为后续分类器的输入,也可以用于查找密切相关的职位或者将职位进行聚类。此外,这种学习模型的架构可以让我们在有限的监督学习下学习到有用的表示。
[13]MUELLER J, THYAGARAJAN A. Siamese recurrentarchitectures for learning sentence similarity[C].The 30th AAAI Conference onArtificial Intelligence. Phoenix, 2016:27862792.
研究背景:文本理解和信息检索是重要的任务,而对句子或短语之间潜在的语义相似性进行建模可以极大促进地促进文本理解速度和检索效率。特别地,一个好的模型不应该受到用于表达相同想法的措词/句法的变化的影响。然而语义标注缺乏,文本长度不一,句子结构复杂等问题,使词袋模型的效果受限。
研究结论:提出了孪生LSTM网络模型,对LSTM 提供补充有同义信息的词嵌入向量,LSTM 使用固定大小的向量来编码句子中表达的潜在含义。并通过后续限制使用了曼哈顿距离进行度量,以至于使句子形成一个高度结构化的空间,其几何形状反映了复杂的语义关系。
与同类研究相比较的优势:文献[13]提出了一个可适应可变长度序列对组成的标记数据的孪生LSTM网络。该模型可以用于评估句子之间的语义相似性,并超越了最先进的技术,也优于精心手工制作的特征和最近提出的更复杂的神经网络系统。
二、政策量化分析
[14]孔希希,程兵.基于统计自然语言处理的央行货币政策研究[J].数学的实践与认识,2017,47(07):198-207.
研究背景:货币政策一直是宏观经济领域研究重点,而实施正确的货币政策对于经济的健康运行至关重要,过度扩张的货币政策导致通货膨胀率较高,降低经济运行的效率,阻碍经济增长。
数据来源:在中国人民银行官方网站获取2001-2014年的货币政策执行报告,一共56篇。
模型选取:运用自然语言处理方法来分析货币政策,对数据采用绝对概率和条件概率方法分别分析。
研究结论:1)在我国近十几年的货币政策实施过程中,央行对于“通货膨胀”的关注度明显高于“通货紧缩”。2)通过统计有关通胀类词的出现个数,可以大致了解每年通货膨胀严重程度。3)通过计算条件概率,可以更好的解释该给条件词十几年的大致走势。4)通过不同时期的比较分析,在绝对概率下可以更好的看出用词的变迁,而在条件概率下,可以更好的研究给定词在不同时期所表现出来的不同特征。
与同类研究相比较的优劣势:货币政策的研究大多都是采用计量经济模型分析和预测经济系统长期和短期的动态,通过对系统进行模拟和脉冲响应来分析经济系统的冲击和货币政策的效果,但是这些模型有的需要繁琐的公式推导,有的难以理解,有的参数难以估计,不够直观。而通过自然语言处理的方式可以更直观的分析货币政策情况,并分析了不同时期的用词区别,缺点就是没有完善的语料库,同义词判断能力缺乏。
[15]张涛,马海群.基于政策文本计算的开放数据与数据安全政策协同研究[J].情报理论与实践,2020,43(06):149-155+141.
研究背景:5G、人工智能、区块链等技术的发展给大数据产业带来了崭新的机遇,数据政策作为国家调控大数据产业的重要手段,它的制定与实施受到了社会的广泛关注。在数据政策中开放数据与数据安全作为主要任务,两者协同关系的研究是推动大数据产业健康发展的关键因素。
数据来源:样本层是以自建数据政策语料库中2216 条数据政策为样本,按照一定标准及规则筛选政策文本446条。
模型选取:使用LDA 主题模型对预初始化后的政策文本进行聚类,形成政策文本主题词语列表,再用关键词分析及人工筛选的方法确定开放数据和数据安全主题关键词。主题协同度是主题关联关系、共现强度和政策力度加权计算所形成的数值。
研究结论:我国数据政策中开放数据和数据安全主题协同度数值整体较低,但部分政策主题协同度数值大于0. 8,说明这些政策间协同关系较为紧密。并且在现有政策中开放数据和数据安全主题共现强度数值整体较低,多数政策中没有体现出主题共现关系,但通过对根政策和干政策中共现强度数值较高的政策内容分析发现,在大数据产业整体发展规划和健康医
疗大数据产业的发展规划中对开放数据和数据安全主题格外关注。
与同类研究相比较的优势:目前在数据政策中开放数据和数据安全主题协同度方面的研究较少,利用文本计算的方法客观分析数据政策中开放数据与数据安全主题间关系,最终为政府制定政策提供理论支撑和决策参考。
[16]张涛,马海群.一种基于LDA主题模型的政策文本聚类方法研究[J].数据分析与知识发现,2018,2(09):59-65.
研究背景:政策文本是政策协同研究的重要工具和载体,随着机器语言学习技术的快速发展,政策文本研究多借助技术手段,文本聚类就成为政策文本研究领域一个重要方向。由于政策文本具有数据量大、规范严谨、数据多样性的特点,而且在不同语境下政策词语的内涵差别较大,构建主题模型可以提高语义分析的精准度。
数据来源:通过Python在百度搜索引擎中按照信息安全、体育、旅游、文化等类目,抽样爬取出部分开放的政策文本语料,从中选取50 篇施政过程中的报道、评论相关文本。
模型选取:通过计算文本—主题最大平均分布概率和主题—词语平均相似度概率的加权数值的方法确定最优主题数量,其中通过最大平均值的方法获取主题与文本最大平均分布概率,以及余弦相似性定理计算出来的主题与主题之间的平均相似度,对两者进行加权计算出G值,使其最大化,确定主题数,再构建LDA模型,确定最优聚类。
研究结论:通过运用该方法的整体性设计,可对未来新政策的制定及对已有政策的反向评价检验和双向互动生成机制的形成提供借鉴。
与同类研究相比较的优势:基于政策文本的特点并结合文本聚类中存在的问题,通过引入政策词表及LDA模型加权算法的方式,提升政策文本聚类的精准度。
[17]刘晓燕,庞雅如,侯文爽,单晓红.关系-内容视角下央地科技创新政策协同研究[J].中国科技论坛,2020(12):13-21.
研究背景:在政策实施过程中,由于实施环境的复杂性加上创新活动固有的动态性,不同地区对中央科技创新政策的执行效果存在差异,政策初始意图往往不能很好地在地区科技创新治理中得到体现。因此,评估央地科技创新政策协同程度,探究政策实施效果,从政策执行
角度分析地区科技创新发展存在差异的原因,有助于缓解政策执行中存在的互不协调、相互冲突问题,使科技创新政策成为地区创新驱动发展中的强大助力。
数据来源:“北大法宝”( http://www.pkulaw.cn/)2012—2018 年中央及北京、天津、河北的科技创新政策文本,再根据政府官方网站中的政策文本对获取的政策文本中缺失的附件等内容予以补充。
模型选取:基于关系-内容视角的央地科技创新政策协同网络模型,构建央地科技创新政策协同网络;提取网络节点,如提取政策主体,即颁布实施的政府部门,再对语句进行句法分析,使用LDA进行主题建模提取政策主题;使用word2vec和余弦相似度计算提取政策主题间的关系,再利用TF-IDF算法提取政策主体和政策主题间的关系。
研究结论:在关系协同中,北京市政策主体参与科技创新治理积极性最高,而河北省和天津市两地政策主体参与积极性有待提升,同时三地政策主体对中央政策执行的稳定性有待增强;在内容协同中,京津冀三地科技创新治理各具特色,北京市与中央科技创新政策目标一致性较高,政策措施相较于中央更为丰富,天津市和河北省在科技创新治理中相较于中央缺乏对人才队伍建设的重视。
与同类研究相比较的优势:当前政策协同分析将政策主体关系协同与政策内容政策目标、政策措施协同割裂开来,另外政策协同研究多使用定性分析和以专家打分法为基础的政策协同量化方法,具有一定的主观性和不确定性,文献[17]以政策文本为基础,将社会网络分析及语义相似度计算方法引入政策协同研究中,从关系协同和内容协同两个视角对央地政策协同予以实证,探究央地政策是否协同,协同稳定性如何及政策匹配程度,可以更为客观
地量化政策协同效果。
[18]卢盛峰,李晓淳,卢洪友.地方政府财政治理特征研究:来自中国政府工作报告文本识别的经验证据[J].财政研究,2020(04):99-114.
研究背景:地方政府财政治理作为国家治理的微观基础和重要组成部分,在推进整体改革和国家治理现代化中扮演着重要角色,但现有研究依然缺乏针对地方财政治理特征的全面性定量识别研究,而计算机文本分析技术的发展,为我们深入剖析和识别政府财政治理特征提供了基础。
数据来源:使用1997—2017年间的政府工作报告,涵盖了国务院、省和市三级,手工收集来源于中华人民共和国中国政府网和各省市的政府官方网站。
模型选取:文本分析法,通过分词构建词典,再进行词频分析,再通过特定词汇进行政策解读;文本相似性分析,通过计算文档间的余弦相似性,比较横向和纵向的政策特征。
研究结论:1) 治理目标上,地方政府强调发展目标,在公平目标上的关注有提升空间;治理方式上,地方政府强调要处理好政府与市场的关系。2) 治理方向上,“五位一体”词频的变化反映了地方政府财政治理顺应时代需求。产业结构上,第一产业仍然是关注重点,第二产业词频略有下降而第三产业词频有上升趋势。3) 市政府与国务院、省政府工作报告均有较高的文本相似度,表明地方政府积极贯彻上级政府的政策安排。
与同类研究相比较的优势:目前文献对地方政府财政治理特征这一方面的研究依然关注不够,或更多侧重于理论分析或只倾向某个方面。相对于既有研究而言,文献[18]采用文本分析方法,对中国地方政府财政治理特征及其变动趋势进行进一步深入研究,也是文本分析方法在公共经济学领域的一大尝试,并对后续研究提供了一种可行的新的视角。
[19]张永安,郄海拓.国务院创新政策量化评价——基于PMC指数模型[J].科技进步与对策,2017,34(17):127-136.
研究背景:我国发展进入新常态,正处在发展方式和新旧动能转换的关键时期,创新是促进经济增长的主要动力,因此从2014年开始,各项创新政策相继出台,创新政策的出台会对经济、社会、技术、政治、环境等产生重要影响,因此政策的评价具有重要意义。
数据来源:2014-2016年国务院出台的12项创新政策文件。
变量和模型选取:
1. 政策性质、政策效力、激励约束、政策领域、政策评价、政策重点、政策受体、主题分类、政策公开等9个一级变量,下设37个二级变量,如主题分类中包含科教、市场监管、商贸及经济、综合政务及其它5个二级变量。
2. 运用文本挖掘法对变量进行打分,再运用PMC指数法对政策进行评级。
研究结论:发现待评价的12项政策均为优秀级别,并对传统政策评分等级进行二次划分,将优秀级别分为优上和优下两个级别,通过多投入产出表和各项政策PMC指数汇总表对两级变量得分进行两级追溯和确定,找到政策薄弱环节,对新政策制定或原有政策修改具有一定借鉴意义。
与同类研究相比较的优势:文献[19]基于文本挖掘法和PMC指数模型方法构建创新政策指数评价模型,以避免专家打分的主观性,提高精确度。
[20]丁潇君,房雅婷.“中国芯扶持政策挖掘与量化评价研究[J].软科学,2019,33(04):34-39.
研究背景:随着国际形势日益严峻,中国集成电路相关行业和企业受到巨大冲击,而集成电路是信息产业的关键组成部分,在以互联网为代表的信息经济产业体系的创新发展中发挥着决定性作用。随着中国制造2025国家战略的推进,国家政策的调控,保证政策连续性的评价也至关重要。
数据来源:选取了20001月至20184月国家颁布的集成电路产业的扶持政策,包括国务院、财政部、科技部、国家发展和改革委员会等政府部门公布的政策文件中收集整理出38 项集成电路产业扶持政策。
变量和模型选取:
1. 政策性质、政策时效、包含级别、作用客体、作用层面、涉及领域、政策评价、政策功能、激励措施、文件引用等10个一级变量,下设40个二级变量,如激励措施中包含税收减免、人才激励、协同发展3个二级变量。
2. 使用文本挖掘的方法计算词频,判断政策关注重点;采用Rothwell Zegveld 关于政策工具的分类方法,把集成电路产业扶持政策工具划分成供给型、需求型和环境型;PMC 指数模型对集成电路产业扶持政策进行量化评价。
研究结论:从产业政策分类的角度发现当前政策在不同产业维度上有所倾斜,产业结构政策占比最大,产业布局和组织相关的政策占比较低,所对应的需求型政策工具几乎空白,反映了我国集成电路支持政策在对产业技术的拉动方面稍有欠缺,使用PMC指数进行政策评价分别为良好和优秀,为政府未来制定政策提供参考。
与同类研究相比较的优势:多数方法的缺陷体现主观性较强和精确度较低,文献[20]选取了综合型的评价方式对政策文本进行量化实证,主要基于内容分析法和语义文本挖掘法对集成电路产业政策原始数据进行获取,然后选用PMC 指数模型构建政策指标体系绘制PMC 曲面,可以更直观地刻画政策效果,为后续政策的制定提供参考。
小结:文献[19][20]均通过文本挖掘和语义分析,深入解读政策关注重点和方向,再通过构建PMC指数和刻画PMC曲面,更直观地判断政策效果。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存