文章荐读 | 基于SAO的技术主题创新演化路径识别及其可视化研究
文 章 荐 读
基于SAO的技术主题创新演化路径识别及其可视化研究
刘春江1, 刘自强2, 方曙1
1.中国科学院成都文献情报中心,成都 610041
2.南京师范大学新闻与传播学院,南京 210097
摘要
利用专利文献数据识别技术领域的技术主题演化发展路径并分析其发展趋势,对于科技界、企业界进行专利技术创新具有重要的意义。首先,使用Open IE 5.1进行SAO(subject-action-object)三元组抽取,基于LDA(latent Dirichlet allocation)模型进行主题识别,根据TRIZ技术创新思想,基于action语义词典将技术主题划分到四个维度;然后,通过计算SAO三元组之间的相似度来测度技术主题之间的语义关联构建技术主题创新演化路径,并利用可视化技术构建技术主题创新演化路径可视化图谱,利用该图谱辅助分析技术主题演化脉络及其发展趋势。最后,通过石墨烯超级电容器(集流体)领域的实证,对该领域的技术问题(problem to problem,P-P)主题、技术功能(solution to solution,S-S)主题、解决方案(problem to solution,P-S)主题和技术效果(solution to problem,S-P)主题的创新演化路径进行解读分析,验证了本研究提出方法的可行性和有效性。
关键词
三元组; 技术主题; 演化路径; 可视化
引用格式:
刘春江, 刘自强, 方曙. 基于SAO的技术主题创新演化路径识别及其可视化研究[J]. 情报学报, 2023, 42(2): 164-175.
👈长按识别文章二维码查看全文
0
引言
数据科学时代背景下,随着科学技术的进步、信息技术的快速发展以及科学知识交流越发频繁,科技规划、基金项目、专利和学术论文等科技文献数据爆发式增长,基于科技文献数据支撑的科技创新战略逐渐兴起。其中,支撑科研决策、资源布局和知识创新的战略性、前瞻性的科技情报工作是我国科技创新战略的重要组成部分。《“十三五”国家科技创新规划》[1]中明确指出,“面向全球、立足全局,深刻认识并准确把握经济发展新常态的新要求和国内外科技创新的新趋势,系统谋划创新发展新路径,以科技创新为引领开拓发展新境界,加速迈进创新型国家行列,加快建设世界科技强国”。
世界知识产权组织指出,90%以上的科技信息是通过专利信息反映出来的,专利文献已经成为分析技术发展态势的重要、可靠数据源[2]。识别技术领域的技术主题创新演化路径并分析其发展趋势,可以梳理其发展脉络,反映其技术活动的现状,为技术人员研究、回溯技术起源和发展提供可靠的帮助[3],有助于用户根据自身情况选择研发方向,实现技术创新路径,对科技界、企业界进行专利技术创新具有重要意义[4]。因此,如何利用专利文献数据高效、准确地识别技术创新路径并预测其发展趋势成为当前科学技术情报分析研究中的重要课题之一。国内外研究者针对这一问题展开了深入研究,取得了许多优秀的研究成果,但仍存在不足之处,主要表现为:技术主题可解读性有待提高;创新演化路径以人工构建为主,效率较低,主观性较强。随着情报分析需求的提高,技术主题创新演化路径分析方法有待进一步发展。
因此,本研究提出一种基于三元组的技术主题创新演化路径识别方法框架,以期改进现有研究中的不足,使之能够满足当前科技创新的情报需求,并为用户根据自身情况选择研发方向、实现技术创新路径以进行科技创新工作提供一定的科技情报支持。
1
相关研究
1.1 SAO三元组
SAO(subject-action-object)三元组依次由名词短语、动词短语和名词短语(头、关系、尾)组成。此外,SVO(subject-verb-object)、SPO(subject-predicate-object)也是三元组的具体表现形式。现有的三元组抽取工具主要包括商业软件Knowledgist和Goldfire,华盛顿大学开发的Reverb、Ollie和Open IE,以及专门针对医学文献的UMLS(unified medical language system)和SemRep[5-7]。
目前基于SAO的专利分析应用越来越多,其大量地被用来进行医学文献分析、侵权专利识别、技术规划系统构建、技术功效图构建等研究。比如,Ahlers等[8]针对医学文献的UMLS和SemRep进行三元组抽取,形成了KDiBL(knowledge discovery in biomedical literature)实践,可以从医学文献中识别和提取出新的、有用的、潜在的和可理解的研究模式。Park等[9]选择医药领域的15条处于专利诉讼中的专利和81条随机选择的领域专利,利用Knowledgist进行三元组抽取,通过WordNet来自动度量三元组之间的语义相似度,绘制出专利之间的技术关系,用于识别侵权专利。Choi等[10]也是利用Knowledgist进行三元组抽取,结合技术树(tech tree)来表示产品组件和技术功能之间关系,将三元组的内容体现到技术树上面。段庆锋等[11]提出了基于SAO结构的专利技术功效图的构建方法,基于SAO结构的共现关系构建技术功效矩阵,探讨了基于SAO结构的技术主题、功效主题分析方法,最后采用以石墨烯传感器领域为例的实证研究验证了该方法的有效性。马晨浩[12]针对甲状腺咨询问句语料采用LSTM(long short-term memory)+CRF(conditional random field)算法生成识别模型,利用该模型从问句中获得甲状腺实体,利用LTP(language technology platform)-parser工具对问句进行依存句法分析,得到句子中各结构的主客关系,形成问句的三元组形式,设计并实现了基于甲状腺知识图谱的自动问答系统。张玉洁等[13]设计了一种融合语义联想和BERT(bidirectional encoder representations from transformers)的SAO分类方法,通过对图书情报领域SAO短文本的实证验证了该方法的优越性——与SVM(support vector machine)、LSTM和单纯的BERT相比,F1值分别提高了0.10、0.15和0.14。周海炜等[14]构建了基于专利SAO结构和多指标评价的新兴技术识别模型,首先将SAO和TF-IDF(term frequency-inverse document frequency)算法相结合,划分出各项子技术领域,然后根据新兴技术特征建立多指标评价体系,结合专利数量年度变化,判别出新兴技术并结合人工判读进行解读。
由上述分析可知,近年来SAO三元组相关研究逐渐深化并广泛应用于复杂的数据处理、情报分析工作中,特别是在情报学领域引入SAO三元组抽取有助于提高情报分析方法的实用性,即可以有效提高情报结果的可解读性以及增加情报分析的效率和角度。但是目前基于SAO三元组的专利情报分析仍存在以下不足:①虽然SAO三元组相较于单纯的关键词、主题词等文本分析能够加强细粒度语义分析效果,但具体专利分析任务强调整体性,单一、细化的SAO三元组难以满足对具体任务领域进行多维度、多层次技术分析的需求;②SAO三元组在专利情报分析中侧重功能性和应用性分类,难以多维度地展现专利技术内涵的主题特征,有待于开展基于SAO三元组和技术主题结合的多维度专利技术功效分析的研究,以更有效地进行专利技术创新情报分析。
1.2 技术主题创新演化路径识别
目前国家、企业间的技术竞争越发激烈,决策者、研发人员需要研判技术发展的可能方向,为下一步的技术创新规划选择正确的道路[15]。由于技术的发展是连续的、累积式的,在时间维度会呈现一定的隐性脉络、路径,可以通过人工判读、定量计算和数据挖掘等方法对这些技术创新演化路径进行识别、揭示。为揭示某项特定领域技术创新演化路径辅助技术创新,国内外众多研究者提出了一些卓有成效的方法。
技术主题创新演化路径识别相关研究的起步阶段以定性分析为主,其中,具有代表性的方法主要有形态分析法[16]、TRIZ[17]和德尔菲法[18],通过专家讨论、定性分析进行技术创新演化路径识别和技术预见。由于定性分析为主的方法主观性较强并且效率低下,研究者尝试寻求新的技术创新演化路径识别方法。随着计算机技术(数据库、关键词抽取、社会网络和文本挖掘等技术)的进步,定量化、自动化结合人工判读为核心的技术主题创新演化路径识别相关研究快速发展。比如,Verspagen[19]、Martinelli[20]等基于专利外部引用特征,使用主路径算法处理专利引用网络识别其中蕴含的关键创新路径,通过燃料电池和电信交换器领域的实证,得到了较清晰的技术主题创新演化路径。
基于外部引文特征的技术主题创新演化路径难以深入具体内容维度,在一定程度上限制了识别结果的实用价值。因此,众多研究者倾向于利用文本挖掘技术(能够从大量非结构化的文本信息中发现潜在的数据模式、内在联系)从具体内容维度进行技术主题创新演化路径识别。比如,James等[21]提出了一个技术创新演化路径识别框架,以企业管理系列软件技术领域(system applications and products,SAP)为例,以相关专利的标题表征技术创新活动,利用文本挖掘技术分析专利标题文本,得到该技术领域的技术创新路径。刘小玲等[22]探索将专利引文分析与文本挖掘方法相结合,在专利引用关系矩阵和专利文本相似度矩阵的基础上创建C-T(citation-text)专利网络,并对C-T专利网络进行聚类分析和可视化,从而识别技术主题创新演化路径。近年来,部分研究者尝试利用LDA模型和SAO三元组抽取来改进技术主题创新演化路径识别方法。比如,陈伟等[23]提出LDA-HMM组合的技术主题创新演化路径识别方法,具体基于LDA模型识别技术主题,然后利用隐马尔可夫模型(hidden Markov model,HMM)识别技术主题演变历史及未来演化趋势(即技术主题创新演化路径)。杨超等[24]提出了一种基于SAO结构的LDA主题模型来识别技术主题结构,然后利用研究问题(problem)-研究方案(solution)模式来展示和分析主题,经过实证发现该方法可以提高情报结果的可解读性以及增加情报分析的效率和角度。李欣等[25-26]提出了基于SAO结构语义挖掘的技术创新演化路径分析方法,首先以专利文献为数据来源,利用文本挖掘方法抽取专利摘要中的SAO结构,然后通过计算两两专利文本的SAO结构相似度得到专利相似度矩阵,以之为基础对专利文本进行聚类构建专利地图,通过对比不同时间窗口的专利地图来分析技术的形成与发展轨迹,揭示新兴技术形成过程中的技术性能渐进变化脉络,最后用钙钛矿太阳能电池作为实证进行了研究,验证了该方法的可行性和有效性。冯立杰等[27]提出了一种基于SAO语义分析和多维技术创新地图的三级技术机会识别方法,从专利文本中抽取SAO三元组,然后利用SAO三元组进行聚类主题识别,结合多维技术创新地图对技术主题进行技术机会识别分析,以3D打印机领域为例验证了该方法的可行性和有效性。Han等[28]提出了基于SAO和链路预测的技术机会分析方法,首先抽取标题和摘要的SAO三元组网络,然后使用链接预测算法来识别未连接节点之间可能的未来链接,进而揭示路径,通过皮肤恶性黑色素瘤领域的实证验证了该方法的有效性。
由上述分析可知,基于LDA模型和SAO三元组抽取的技术主题创新演化路径识别是目前该领域的两个热点方向,但各有不足,比如:①基于LDA模型的技术主题创新演化路径识别结果表现为若干主题-主题词的组合(以主题为基本单元构建创新路径),一般以主题标号作为标签,通过各种关联关系构建路径。整体来看,基于LDA模型的技术主题创新演化路径识别结果语义信息相对不足,难以解读,在进行具体专业领域技术主题创新演化路径识别结果的分析时,技术主题创新演化路径图谱只能展示主题维度的技术主题演化路径,需要领域专家和情报工作人员的大量介入,难以揭示细粒度、语义信息丰富的技术主题演化路径。②基于SAO三元组抽取的技术主题创新演化路径识别结果表现为文档——SAO结构(以单个专利文本为基本单元通过引用或SAO相似度构建创新路径),其过于细化难以得到层次化的技术主题创新演化路径,因此,现有研究中基于SAO三元组的技术主题创新演化路径结果往往只能由情报工作人员选择特定、细化的创新演化路径进行解读分析,但目前专利情报分析任务中多维度、多层次技术分析需求日益增强,语义信息更丰富、更层次化的技术主题创新演化路径探索正是面向该需求的重要突破方向。所以,如何将LDA模型与SAO三元组抽取相结合,得到语义信息更丰富、更层次化的技术主题创新演化路径有待于进一步研究探索。
综上所述,针对目前研究中的不足,本研究提出基于三元组的技术主题创新演化路径识别方法,主要创新之处在于将LDA模型和SAO三元组抽取相结合,基于Web前端可视化技术设计与之相契合的技术主题创新演化路径可视化方案,从而提升技术主题创新演化路径识别的效果。
2
方法框架
在梳理、总结相关研究的基础上,本研究提出基于三元组的技术主题创新演化路径识别方法框架,主要包括数据收集与预处理、SAO三元组抽取、技术主题识别与维度划分、技术主题关联路径构建和技术主题创新演化路径可视化等4个系统步骤。
Step1.数据收集与预处理。根据技术领域确定专利检索数据库,构建检索式检索、下载专利文献数据;数据预处理主要包括格式转换、去重和过滤停助词等子步骤。
Step2. SAO三元组抽取。在Step1基础上,利用华盛顿大学开源的三元组抽取工具Open IE 5.1进行SAO三元组抽取,然后进行打分排序和清洗,得到最终SAO三元组抽取结果。
Step3.基于LDA模型的技术主题识别与维度划分。利用数据挖掘平台KNIME中的LDA模型模块处理SAO三元组进行技术主题识别,然后基于action语义词典(SAO三元组中的action部分)将技术主题划分到4个维度。
Step4.技术主题语义关联与创新演化路径可视化。通过计算SAO三元组之间的相似度来测度技术主题之间的语义关联构建技术主题创新演化路径,然后,利用可视化技术绘制多维度技术主题创新演化路径图谱,进而有效分析特定技术领域的技术主题创新演化路径及其发展趋势。
下文将对Step2~Step4进行详细介绍。
2.1 SAO三元组抽取
(1)初始SAO三元组抽取
在具体SAO三元组抽取处理过程中,本研究首先使用开放信息抽取工具Open IE 5.1(https://github.com/dair-iitd/OpenIE-standalone)从经过预处理的专利文本中进行SAO三元组抽取[29]。Open IE 5.1是由华盛顿大学和印度德里理工学院联合维护的一个开放信息抽取工具,其包含了可从多种类型的句子中进行三元组抽取的功能;事实上,Open IE是在华盛顿大学所开发的一系列开放信息抽取工具的基础上改进而来的,包括TextRunner、Reverb、Ollie等,而Open IE 5.1是其最新版本[5,30]。相较于其他三元组抽取工具,Open IE 5.1具有开源、不需要训练数据、不受限于领域和高效率等优点。
(2)SAO三元组清洗
由于原始SAO三元组抽取结果存在数量多和一定重复度等问题,需要进行一些清洗操作。虽然每个三元组都有对应的置信度值,但在实际使用中,大多通过人工的办法从中找出合适的三元组,因此我们提出了对原始三元组抽取结果进行清洗的流程,以减轻人工筛选的压力。首先是对这些SAO使用斯坦福自然语言处理工具包(https://github.com/stanfordnlp/stanfordnlp)进行词形还原和词性标注,形成预清洗的三元组列表,然后依次进行下列操作:①删除置信度值小于0.8的三元组;②基于部分action进行清洗,经过词形还原以后,is、are、was、were等词被还原为be,但这些词对分析的意义不大,因此将包含be的三元组删除;③基于部分subject和object进行清洗,将含有两种类型的三元组删除,一是缺失subject或object的三元组,二是含有较长subject和object的三元组;④删除重复SAO三元组,针对每条专利的所有三元组集合,分别计算相互之间的重复度,计算SAO三元组内部单词的重复率来测度它们之间的重复度,比如,charge storage device/comprise/a nanostructured mesoporous material和charge storage device/comprise/nanostructured mesoporous material两个三元组重复率较高,需要删除其中置信度值低的。具体方法是:如果三元组之间存在subject、action和object都包含的情况,或者三元组之间的重复度大于90%,删除置信度值较低的三元组。
2.2 基于LDA模型的技术主题识别与维度划分
将清洗之后的SAO三元组作为领域基本知识单元,即将清洗之后的SAO三元组作为一个个的短文本。利用LDA主题模型对这些SAO三元组短文本进行主题识别,从而达到降维并识别技术主题的目的。LDA模型最早由Blei等[31-32]提出,旨在识别文本中蕴含的主题(可以表达词间语义层次关系),与潜在语义索引[33](latent semantic analysis,LSA)、概率性潜在语义索引[34](probabilistic latent semantic analysis,pLSA)模型相比,LDA模型除了可以得到训练集文本的主题分布,还可以准确得到非训练集文本的主题分布,被广泛应用于科学与技术主题识别相关研究中[35-37]。
本研究具体使用数据挖掘平台KNIME中的LDA模型模块,处理SAO三元组结果进行技术主题识别。目前LDA模型中的K值确定一般通过计算困惑度、一致性分数然后结合人工观察得到,本研究利用数据挖掘平台KNIME中主题识别的elbow method结合人工判读来确定主题个数K值。LDA模型是由词、主题和文档构成的三层贝叶斯概率模型,该模型假设文档是由若干隐性主题组成的,而主题又是由词汇组成的。LDA模型生成原理如图1所示,其中,LDA主题模型的联合分布概率[31]为
其中,N表示第m个文档的单词数目;θ为参数α的Dirichlet分布采样;z表示主题;w表示主题词。
图1 LDA模型基本原理[31]
在图1中,α和β为可设置的参数,φ表示参数为β的Dirichlet分布采样,φk表示主题-词汇分布,θm表示文档-主题分布,zm,n表示具体主题,wm,n表示具体主题词汇,K、M和N表示常数,分别为主题数目、文档数目以及第m个文档的单词数目。
然后,基于TRIZ技术创新思想,采用action语义词典(SAO三元组中的action部分)将技术主题划分到4个维度,具体包括“技术问题”(problem to problem,P-P)、“技术功能”(solution to solution,S-S)、“解决方案”(problem to solution,P-S)和“技术效果”(solution to problem,S-P)4个技术主题维度。
action语义词典由SAO三元组中的action清洗归纳得到。本研究根据TRIZ技术创新思想预设4类标准action(P-P、S-S、P-S和S-P),然后根据action语义词典将各个SAO三元组映射划分到不同标准action下,结合上一步(利用LDA主题模型对SAO三元组进行降维从而识别技术主题)中的技术主题识别结果,进行技术主题的维度划分。具体操作中,action语义词典构建主要可以细分为以下3个子步骤:①移除无意义的动词、介词、代词等,如be、at、of、out、to等;②删除通用的动词,如claim、study、suggest等;③根据本研究预设的标准action进行归并。
2.3 技术主题语义关联与创新演化路径可视化
为了得到语义信息更丰富、更层次化的技术主题创新演化路径,本研究通过测度相邻子时期不同维度的技术主题的语义关联度来构建技术主题创新演化路径。经过2.1节和2.2节的处理,可以得到基本知识单元SAO以及技术主题Topic。由于技术主题是由SAO三元组降维得到的,技术主题可以表示为Topicx={SAO1,SAO2,SAO3,…,SAOy},因此,可以通过计算SAO三元组的相似度来测度技术主题之间的语义关联度。假定任意技术主题Topic1和技术主题Topic2的语义关联度为Sim(Topic1,Topic2),其计算方法为
其中,m和n分别表示技术主题Topic1和技术主题Topic2中蕴含的SAO三元组个数;SAOi和SAOj分别表示技术主题Topic1和Topic2中的具体SAO三元组。
三元组相似度的计算方式有很多种,如基于WordNet、BERT以及word2vec等,其中word2vec是一种非常经典且有效的语义相似度计算工具[32]。本研究的基本思路是:首先计算出每个三元组之中所有单词的向量;然后对所有单词的向量求平均值,作为三元组的向量表达;最后通过求三元组之间的余弦相似度来计算三元组之间的语义相似度。假定SAOi=[W1,W2,…,Wm]和SAOj=[W1,W2,…,Wm]是第i个SAO和第j个SAO的m维向量,则其计算方法为
其中,Pi和Qi分别代表向量SAOi和SAOj的各分量。然后,通过两两计算相邻子时期技术主题的语义关联度来构建技术主题创新演化路径,通过设置一定的阈值z来判断技术主题之间是否存在创新演化路径。当任意两个技术主题的语义关联度大于z即可判定其具有演化关系,可以建立创新演化路径。关于关联度阈值z的确定,不同实证领域数据的关联度阈值z不一定相同,需要由课题组成员(具体情报分析人员)和领域专家综合确定。
为了客观呈现不同维度的技术主题创新演化路径,根据技术主题关联关系,绘制引入SAO三元组的技术主题创新演化路径图谱。技术主题创新演化路径可视化能够直观、清晰地展示技术主题之间的分裂、融合等演化路径;基于可视化技术可以有效揭示技术发展过程中的创新脉络,便于用户快速获取情报,对于提高技术主题创新演化路径识别结果的实用价值具有重要作用。
由于现有研究中基于SAO三元组的技术主题创新演化路径可视化图谱以人工绘制为主,存在主观性较强、耗时、耗力等不足,因此本研究利用可视化技术进行技术主题创新演化路径可视化图谱绘制,实现定量化、自动化和可视化识别技术主题创新演化路径,旨在揭示技术问题、技术功能、解决方案和技术效果等不同维度技术主题之间的创新演化路径,从而对特定领域专利技术创新演化路径进行整体解读与综合评估。所设计的可视化图谱基本原理如图2所示。
图2 技术主题创新演化路径可视化基本原理
在图2中,基于技术主题语义关联计算结果数据,利用桑基图(Sankey diagram)为图谱基本样式进行技术主题创新演化路径可视化,具体是将不同维度的技术主题根据时间标签从左往右依照年度分布在时间轴t上,然后基于相邻时期技术主题的语义关联结果将技术主题进行关联(以线条的粗细表示,线越粗,关联度越大)。
3
实证研究
3.1 数据收集与预处理
本研究选取石墨烯超级电容器领域的相关专利作为实证数据,具体检索策略如下:选择Derwent Innovation Index数据库作为专利检索数据源,采用高级检索方式,检索式为ALLD=(Graphene*) and (ALLD=((super or Electrochemica* or Double-layer* or Gold* or Farah*) adj capacit* or supercapacit*) or (ALLD=(super or Electrochemica* or Double-layer* or Gold* or Farah*) and IC=(H01G*)));时间限定为专利公开日期2010年1月1日到2020年12月31日,共计10年;检索日期为2021年10月20日;导出格式为全记录,纯文本。检索、下载共计获得专利4754项,各个年度专利数量的分布情况如图3所示。
图3 专利数量年度分布
对检索得到的专利数据进行格式转换、去重等预处理操作,然后抽取专利公开号、题名-DWPI、摘要-DWPI和公开日期等主要字段,并过滤停助词、数字等,以及去除专利文本中的部分通用词,如preferred components、independent claims和detailed description等。
3.2 SAO三元组抽取
根据第2节所述步骤,将预处理之后的3213项专利作为领域专利数据集,使用开放信息抽取Open IE 5.1从专利数据中的题名-DWPI、摘要- DWPI字段中抽取原始SAO,然后计算置信度值和高频词集的相似度重新对SAO集合进行打分排序,最终选择排序靠前的SAO(原始SAO三元组抽取结果35476个,清洗后得到最终SAO三元组结果共17610个),部分结果如表1所示。
3.3 技术主题识别与维度划分
在3.2节SAO三元组抽取与过滤基础上,利用数据挖掘平台KNIME中的LDA模型模块对SAO三元组进行降维识别技术主题,得到89个原始技术主题。具体技术主题识别结果包括主题-SAO三元组矩阵、主题-专利文档矩阵。经过SAO三元组抽取和技术主题识别的处理,可以得到基本知识单元SAO以及技术主题Topic。由于技术主题是由SAO三元组降维得到的,技术主题可以表示为Topicx={SAO1,SAO2,SAO3,…,SAOy}。
然后基于action语义词典对技术主题包含的SAO三元组(主题-SAO三元组矩阵)进行分组,即将SAO三元组中的原始action根据语义词典划分归纳到标准action下,其中,action语义词典由情报工作人员初选,然后由领域专家最终修正判定,再将标准action与技术主题维度进行映射,从而将技术主题划分到不同维度。部分action划分与主题维度映射结果如表2所示。
3.4 多维度视角下的技术主题创新演化路径构建及其可视化分析
根据第2节中所述步骤,在3.3节基于LDA模型的技术主题识别基础上,通过测度相邻子时期技术主题的语义关联度来构建技术主题创新演化路径,然后根据本研究所设计的多维度视角下的技术主题创新演化路径可视化方法对其进行图谱绘制,以辅助情报解读分析。
具体以集流体子领域为例进行多维度视角下的技术主题创新演化路径构建及其可视化分析。根据3.3节所述步骤,基于action语义词典对集流体子领域技术主题包含的SAO三元组(主题-SAO三元组矩阵)进行分组,在情报人员分组基础上由领域专家最终修正判定,将集流体子领域技术主题划分到P-P、S-S、P-S和S-P这4个技术主题维度,具体结果如表3所示。
然后,通过测度集流体子领域相邻子时期技术主题的语义关联度来构建技术主题创新演化路径,最终绘制的石墨烯超级电容器(集流体)领域技术主题创新演化路径可视化图谱如图4所示。
图4 石墨烯超级电容器领域(集流体)技术主题创新演化路径可视化图谱
在图4中,矩形之间的不同颜色连接表示技术创新主题演化路径,连线的粗细表示不同类型技术主题之间的语义关联度大小。
石墨烯超级电容器是一种特殊的电容器,拥有异常高的导电性和较大的表面积,在能量储存和释放的过程中比同类产品的优越性更高。集流体是指汇集电流的结构或零件,其功用主要是将电池活性物质产生的电流汇集起来以便形成较大的电流对外输出。石墨烯超级电容器集流体受到国内外企业、学界的广泛关注与重视,分析该领域的创新演化路径对辅助科研创新具有一定的意义,下文根据图4进行解读分析。
“技术问题”(P-P)主题创新演化路径中,可以看到最近10年石墨烯在超级电容器集流体上的研究创新。随着集流体制作材料从碳发展到石墨烯,在初期,主要是复合应用石墨烯和其他材料来制作集流体,并从单纯的石墨烯材料发展到氧化石墨烯复合结构;在中期,从二维结构发展到三维结构作为石墨烯集流体主体;在后期,主要是利用聚合物加强导电碳和金属集流体之间的结合性,相关材料从石墨烯发展到任意导电碳。
“解决方案”(P-S)主题创新演化路径中,为了改善超级电容器集流体的性能,研究者们通过研究探索电容材料修饰获得的石墨烯基复合材料,比如,利用石墨烯的导电性和保护作用等不同属性,调整石墨烯的取向生长和其他材料的复合来制作集流体;为了解决石墨烯和其他材料复合性不强的问题,从单纯的石墨烯发展到氧化石墨烯复合结构,引入氧化石墨烯改善单一石墨烯的键合作用;针对铝集流体,从沉积导电碳发展到石墨烯,提高了碳层和石墨烯的厚度,增强了集流体抗高压的能力;提出磁控溅射在金属集流体上实现碳沉积的方法来制作集流体等。
“技术功能”(S-S)主题创新演化路径中,研究者们主要研究复合材料在超级电容器集流体中的电化学性能以及应用问题。比如,随着石墨烯制备技术方法的发展,该主题逐渐引入石墨烯材料,选择石墨烯基的材料作基底负载过渡金属氧化物和氢氧化物,从而制备石墨烯基的先进复合材料,用作超级电容器电极材料;如何有效降低超级电容器的内阻,降低大电流充放电时超级电容器热量的产生,提高超级电容器大电流充放电能力及散热能力是近年来该主题的主要发展方向。
“技术效果”(S-P)主题创新演化路径中,主题主要集中于石墨烯超级电容器集流体相关研究的技术效果。比如,石墨烯功能化聚合物对集电器具有良好的附着力,多层结构可以有效解决石墨烯与活性炭的混合问题,石墨烯制备流程的完善有利于大规模生产高能和/或大功率电池石墨烯集流器。近年来,研究者们主要关注石墨烯氧化物结合的薄金属箔,使电池或电容器能够提供更高的输出电压、更高的能量密度、更快的充放电速率和更长的循环寿命等技术效果。
3.5 验证对比
为了验证本研究提出方法的可行性和有效性,选择相对成熟、认可度较高的技术主题创新演化路径识别及其可视化方法、工具作为基线方法,与本研究提出的方法进行验证对比。通过调研国内外相关研究与实践工作,发现ITGInsight[38]和NEViewer[39]工具中集成了技术主题创新演化路径识别及其可视化方法,受到了众多研究者的认可和使用。其中NEViewer侧重于学科主题演化可视化任务,而ITGInsight功能更加强大,支持SCI、CNKI、万方论文数据,以及德温特专利、美国专利、中国专利、欧洲专利等多种数据,可以开展技术主题演化路径识别及可视化、技术监测、技术机会分析、竞争态势分析等科研管理与情报分析任务。所以,本研究以ITGInsight中集成的技术主题演化路径识别及可视化方法作为基线方法,同样以本研究收集、下载的石墨烯超级电容器领域的相关专利数据作为实证数据,利用基线方法进行技术主题探测、路径识别和绘制技术主题创新演化路径可视化图谱,结果如图5所示。
图5 基于ITGInsight的技术主题演化路径
分析图5可知,本研究提出的方法和基于ITGInsight的基线方法相比,具有一定的优点和创新。首先在微观层面,SAO三元组(如graphene film/cover/surface of the plastic support film)比主题词(graphene oxide)蕴含更多的语义信息,更便于情报工作人员的解读;其次在宏观层面,本研究根据TRIZ技术创新思想预设的4类标准action(P-P、S-S、P-S和S-P)可以从4个不同维度来构建识别技术主题创新演化路径,有助于满足多维度、多层次的技术主题演化路径情报分析需求,不过在适用场景、分析效率方面,基于ITGInsight的基线方法要优于本研究。因此,通过对比分析可以在一定程度上验证本研究提出方法的可行性和有效性。
3.6 讨 论
综上所述,与现有技术主题创新演化路径分析方法相比,本研究提出的方法一方面可以通过将LDA模型和SAO三元组结果结合有效提高技术主题创新演化路径的可解读性;另一方面,传统基于SAO三元组的技术主题创新演化路径可视化图谱主要依靠手工绘制,本研究提出的方法利用可视化技术自动构建演化路径图谱,不仅可以提高图谱的美观性,而且能够提高图谱绘制的效率。此外,按照TRIZ思想,从4个不同维度来构建识别技术主题创新演化路径,能够更贴近实际技术创新实践,有助于指导多维度、多层次的专利情报分析工作实践,具有一定的理论和实际意义。对石墨烯超级电容器领域的实证研究,在一定程度上可以验证本研究所设计方法的可行性和有效性。
但是该方法也存在一定的局限性和不足,比如:①方法的提炼来源于实践工作,理论凝练方面不足,整个方法理论深度有所欠缺;②SAO三元组和LDA主题模型的结合有助于得到语义信息更丰富、更层次化的技术主题创新演化路径,但本研究未完成基础算法的突破,虽然设计了自动化可视化方案,不过研究创新稍显单薄;③对SAO三元组进行清洗可以过滤一定的噪音SAO,但还需要一定的人工判读对SAO抽取结果进行清洗,主题维度划分和关联构建中也需要情报分析人员和领域专家介入,未实现全自动化。
4
结 语
本研究在总结归纳现有SAO三元组抽取和技术主题创新演化路径识别相关研究的基础上,提出基于SAO三元组的技术主题创新演化路径识别及其可视化方法。以石墨烯超级电容器领域为例,选取Derwent Innovation Index数据库收录的相关领域专利数据作为研究数据进行实证验证,在一定程度上验证了本研究提出方法的可行性和有效性。与现有方法相比,本研究提出的方法存在两个优点,首先提高了技术主题创新演化路径识别结果的可解读性,其次,设计了一种新的基于SAO三元组的技术主题创新演化路径可视化方法,提高了情报分析的效率。本文提出的方法也存在一定的不足,比如,本文方法中SAO三元组精炼和action语义词典构建等步骤需要领域专家协助,在后续研究中,将尝试基于深度学习技术提高SAO三元组抽取结果的筛选效率,并实现整个方法流程的全自动化。
参考文献
[1] 国务院关于印发“十三五”国家科技创新规划的通知[EB/OL].(2016-08-10) [2020-06-02]. https://www.most.gov.cn/xxgk/xinxi‐fenlei/fdzdgknr/gjkjgh/201608/t20160810_127174.html.
[2] 刘自强, 许海云, 岳丽欣, 等. 基于Chunk-LDAvis的核心技术主题识别方法研究[J]. 图书情报工作, 2019, 63(9): 73-84.
[3] Cho Y, Kim M. Entropy and gravity concepts as new methodolog‐ical indexes to investigate technological convergence: patent net‐work-based approach[J]. PLoS One, 2014, 9(6): e98009.
[4] Rosenberg N. Exploring the black box: technology, economics,and history[M]. Cambridge: Cambridge University Press, 1994.
[5] 杨博, 蔡东风, 杨华. 开放式信息抽取研究进展[J]. 中文信息学报, 2014, 28(4): 1-11, 36.
[6] 杨超, 朱东华, 衡晓帆, 等. 基于语法树的SAO结构识别方法研究[J]. 图书情报工作, 2016, 60(21): 113-121.
[7] 张晗, 赵玉虹 . 基于语义图的医学多文档摘要提取模型构建[J]. 图书情报工作, 2017, 61(8): 112-119.
[8] Ahlers C B, Fiszman M, Demner-Fushman D, et al. Extracting se‐mantic predications from Medline citations for pharmacogenom‐ics[J]. Pacific Symposium on Biocomputing, 2007, 12: 209-220.
[9] Park H, Yoon J, Kim K. Identifying patent infringement using SAO based semantic technological similarities[J]. Scientomet‐rics, 2012, 90(2): 515-529.
[10] Choi S, Park H, Kang D, et al. An SAO-based text mining ap‐proach to building a technology tree for technology planning[J].Expert Systems with Applications, 2012, 39(13): 11443-11455.
[11] 段庆锋, 蒋保建 . 基于 SAO 结构的专利技术功效图构建研究[J]. 现代情报, 2017, 37(6): 48-54.
[12] 马晨浩. 基于甲状腺知识图谱的自动问答系统设计与实现[D].上海: 东华大学, 2018.
[13] 张玉洁, 白如江, 刘明月, 等. 融合语义联想和BERT的图情领域SAO短文本分类研究[J]. 图书情报工作, 2021, 65(16): 118-129.
[14] 周海炜, 吴成凤. 基于专利SAO结构和多指标评价的新兴技术识别研究——以手机芯片领域为例[J]. 情报杂志, 2022, 41(2):86-94, 48.
[15] Choi C, Park Y. Monitoring the organic structure of technology based on the patent development paths[J]. Technological Fore‐casting and Social Change, 2009, 76(6): 754-768.
[16] Wissema J G. Morphological analysis: its application to a compa‐ny TF investigation[J]. Futures, 1976, 8(2): 146-153.
[17] Ilevbare I M, Probert D, Phaal R. A review of TRIZ, and its bene‐fits and challenges in practice[J]. Technovation, 2013, 33(2/3):30-37.
[18] Mitchell V W. The Delphi technique: an exposition and applica‐tion[J]. Technology Analysis & Strategic Management, 1991, 3(4): 333-358.
[19] Verspagen B. Mapping technological trajectories as patent cita‐tion networks: a study on the history of fuel cell research[J]. Ad‐vances in Complex Systems, 2007, 10(1): 93-115.
[20] Martinelli A. An emerging paradigm or just another trajectory?Understanding the nature of technological changes using engi‐neering heuristics in the telecommunications switching industry[J]. Research Policy, 2012, 41(2): 414-429.
[21] James T L, Cook D F, Conlon S, et al. A framework to explore in‐novation at SAP through bibliometric analysis of patent applica‐tions[J]. Expert Systems with Applications,2015,42(24):9389-9401.
[22] 刘小玲, 谭宗颖 . 基于专利网络的技术演进研究方法探索[J].科学学研究, 2013, 31(5): 651-656, 731.
[23] 陈伟, 林超然, 李金秋, 等. 基于LDA-HMM的专利技术主题演化趋势分析——以船用柴油机技术为例[J]. 情报学报, 2018, 37(7): 732-741.
[24] 杨超, 朱东华, 汪雪锋, 等 . 专利技术主题分析: 基于 SAO 结构的LDA主题模型方法[J]. 图书情报工作, 2017, 61(3): 86-96.
[25] 李欣, 王静静, 杨梓, 等. 基于SAO结构语义分析的新兴技术识别研究[J]. 情报杂志, 2016, 35(3): 80-84.
[26] 李欣, 谢前前, 黄鲁成, 等. 基于SAO结构语义挖掘的新兴技术演化轨迹研究[J]. 科学学与科学技术管理, 2018, 39(1): 17-31.
[27] 冯立杰, 曾小红, 王金凤, 等. 一种三级技术机会识别方法及其应用——基于 SAO 语义分析和多维技术创新地图[J]. 科技进步与对策, 2021, 38(19): 1-10.
[28] Han X T, Zhu D H, Wang X F, et al. Technology opportunity anal‐ysis: combining SAO networks and link prediction[J]. IEEE Transactions on Engineering Management, 2021, 68(5): 1288-1298.
[29] 胡正银, 刘春江. 基于语义TRIZ的专利技术挖掘[M]. 北京: 科学出版社, 2021.
[30] Saha S, Mausam. Open information extraction from conjunctive sentences[C]// Proceedings of the 27th International Conference on Computational Linguistics. Stroudsburg: Association for Com‐putational Linguistics, 2018: 2288-2299.
[31] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet allocation[J].Journal of Machine Learning Research, 2003, 3: 993-1022.
[32] Blei D M, Lafferty J D. Dynamic topic models[C]// Proceedings of the 23rd International Conference on Machine Learning. New York: ACM Press, 2006: 113-120.
[33] Landauer T K, Dumais S T. A solution to Plato’s problem: the la‐tent semantic analysis theory of acquisition, induction, and repre‐sentation of knowledge[J]. Psychological Review, 1997, 104(2):211-240.
[34] Shen C, Li T, Ding C. Integrating clustering and multi-document summarization by bi-mixture probabilistic latent semantic analy‐sis (PLSA) with sentence bases[J]. Proceedings of the AAAI Con‐ference on Artificial Intelligence, 2011, 25(1): 914-920.
[35] 刘自强, 许海云, 岳丽欣, 等. 面向研究前沿预测的主题扩散演化滞后效应研究[J]. 情报学报, 2018, 37(10): 979-988.
[36] 任晓亚, 张志强, 陈云伟. 杰出科学家的科研产出规律——以拉斯克医学研究奖得主为例[J]. 情报学报, 2019, 38(9): 894-906.
[37] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[OL]. (2013-09-07). https://arxiv.org/pdf/1301.3781.pdf.
[38] Wang X F, Zhang S, Liu Y Q. ITGInsight-discovering and visual‐izing research fronts in the scientific literature[J]. Scientometrics,2022, 127: 6509-6531.
[39] 王晓光, 程齐凯 . 基于 NEViewer 的学科主题演化可视化分析[J]. 情报学报, 2013, 32(9): 900-911.
制版编辑 | 李 静
审核 | 王海燕
国家自然科学基金管理学部A类期刊
全国中文核心期刊
CSSCI来源期刊
《中国人民大学复印报刊资料》重要转载来源期刊
CSTPCD(中国科技论文与引文数据库)收录期刊
NSSD (国家哲学社会科学学术期刊数据库)
长按扫描二维码 | 关注我们
情报学报官网:qbxb.istic.ac.cn
邮箱:qbxb@istic.ac.cn
电话:010-68598273
欢迎投稿!
【免责声明】本公众号主要发布《情报学报》期刊的录用文章,或转载其他媒体与网站的图文资讯。文章仅代表作者本人观点,本公众号对文中陈述、观点判断保持中立。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。抄袭本文至其他渠道者引发的一切纠纷与本公众号平台无关。