文章荐读 | 一种基于图表示学习的潜在颠覆性技术识别方法
文 章 荐 读
一种基于图表示学习的潜在颠覆性技术识别方法
窦永香, 开庆, 王佳敏
西安电子科技大学经济与管理学院,西安 710126
摘要
识别潜在颠覆性技术有助于国家和企业加强颠覆性技术供给,使其在国际科技竞争中赢得竞争优势或实现变轨超车。传统基于文献计量的颠覆性技术识别方法通常利用论文和专利数据先构建关键词网络或关键词集,然后人工构造高阶数据特征进行分析。这种人工构造高阶特征的方法容易使关键词网络等的结构信息表达不充分,导致识别的准确性降低。本文提出一种基于图表示学习的半监督潜在颠覆性技术识别方法。首先,基于科技文献数据库数据,利用关键词共现频率和期刊影响力构建技术关键词加权网络;然后,通过反向传播算法基于匿名游走序列学习获得关键词网络的向量表示;接着,通过比较待识别技术关键词网络的向量序列与公认颠覆性技术关键词网络的向量序列之间的相似程度,反映技术演化特征的相似性,从而识别出潜在的颠覆性技术;最后,从近年来国内外与颠覆性技术有关的战略规划、预测报告中选取10项技术作为实验对象,采集WoS(Web of Science)数据对本文提出的方法进行实验验证,发现在预给定5项颠覆性技术的条件下,本文方法能较好地将其中潜在的3项颠覆性技术识别出来,并能够将2项伪颠覆性技术判断为非颠覆性技术。
关键词
颠覆性技术识别; 图嵌入; 关键词网络; 匿名游走
引用格式:
窦永香, 开庆, 王佳敏. 一种基于图表示学习的潜在颠覆性技术识别方法[J]. 情报学报, 2023, 42(6): 637-648.
👈长按识别文章二维码查看全文
0
引言
《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》中明确提出,要加强颠覆性技术供给,前瞻谋划未来产业。识别和培育潜在颠覆性技术有助于国家与企业提前布局具备竞争能力的前瞻性产业,掌握新一轮国际科技竞争中的主导权。颠覆性技术是一种有助于建立新的技术体系和价值网络并最终颠覆现有技术体系及价值网络的技术创新。从技术层面看,颠覆性技术是从既定的系统和技术体系中衍生、进化出且将取代已有传统技术的新生主导性技术;从市场层面看,颠覆性技术是一种新的、被低估的技术,其进入市场后会迅速发展而使现有企业无法继续运维主流的技术体系及经商方式。相对于渐进式技术,颠覆性技术具有前沿性、替代性、突变性、破坏性和跨界性5个方面的特征[1]。
现有颠覆性技术识别的数据来源可分为两大类:基于领域专家经验等的主观数据和基于文献、专利及市场需求等的客观数据。其中,前者更多的是依赖专家的主观判断,当多位专家的研判有较大差异时,识别结果的不确定性程度较高;后者主要依赖客观数据,如何准确识别是关键,在实际应用可两者兼顾,综合判断。
现有颠覆性技术识别方法中有通过突变性、跨界性[2-3]等颠覆性特征去定量识别颠覆性技术的方法,主要是通过衡量待识别技术与已有颠覆性技术之间的相似性来判断。例如,利用突变性识别颠覆性技术主要通过分析待识别技术是否存在或者预测其是否存在与已有颠覆性技术相似的突变演化方式来判断,其中提取这些特征相关高阶信息的方法主要是基于新词、热词变化程度等人工构造提取。图表示学习能够自动学习网络的特征,并将高维关键词网络结构信息表示成低维稠密的欧几里得空间向量。这种欧几里得向量相较于关键词网络最初蕴含的各种非欧几里得几何的特征(如无标度或层次结构),能够更好地被应用于主流基于欧几里得空间的数据分析方法,如SVM(support vector machines)分类模型以及动态时间弯曲(dynamic time warping,DTW)距离度量等。因此,本文尝试引入图表示学习分析从专利、论文数据中生成的关键词网络的结构特征,以克服传统方法手动构造高阶特征的弊端,并基于图表示学习到的向量比较待识别技术与已知颠覆性技术之间的相似性,进而识别潜在的颠覆性技术,探索一种仅需少量标签数据、基于机器学习方法的半监督颠覆性技术识别方法。
1
相关研究
1.1 颠覆性技术识别
颠覆性技术识别的关键在于基于什么数据,通过技术识别方法识别技术存在的颠覆性特征。目前,从识别的数据来源来看,主要有主观数据,以及以市场数据、文献与专利数据、舆情与非正式文献数据为代表的客观数据。①运用技术专家的专业知识和经验对技术现状、发展趋势等进行综合分析形成的主观数据作为颠覆性技术识别的数据来源。譬如,有些学者首先从替代性、破坏性等角度构建颠覆性技术指标评价体系,再通过研讨会或问卷调查方式获取技术在各项指标中的表现,进而识别颠覆性技术[4-7];也有学者通过邀请专家构建未来场景,预测具有社会颠覆性或国防战略颠覆性的技术[8-10]。②通过市场层面的客观数据识别颠覆性技术。例如,基于市场规模、创新系数和其他系数构建Bass模型预测产品销售情况,分析技术或产品的颠覆性[11];有研究者通过消费者偏好及市场规模等信息构建需求模型,预测技术发展趋势[12-13]。③运用文献与专利数据中蕴含技术发展的特征和规律识别颠覆性技术。例如,有学者通过构建关键词网络分析技术关键词及主题演变趋势识别颠覆性技术[14-15];有的学者将专利数据的引文数据或关键词数据作为传染病等模型的输入,进而识别技术的颠覆性[16-17]。④科技报告及商业报告等非正式文献数据和舆情数据、政府政策法规数据也蕴含社会、行业对技术的倾向及评价信息,因此,相关学者以商业报告为数据源,通过文本挖掘来分析潜在技术与主流技术的属性差异,或基于数量趋势和报告关键词共现网络的特征来判断技术颠覆性创新的潜力[18-19];还有学者使用Twitter等舆情数据分析群众对技术的情感态度变化趋势,预测具有颠覆性的新兴技术[20]。其中,论文数据是易于获取且信息密度较高的客观数据来源,现有的颠覆性技术识别方法通常是在利用该类数据构建关键词网络或关键词集的基础上,人工构造高阶数据特征进行分析。例如,构建基于新词、重复词和学科分类的突变特征以反映技术知识突变性,进而识别颠覆性技术[2]。这种人工构建特征的方法侧重于模型所设计的数据特征方面的信息,容易忽略其他可用于颠覆性技术识别的信息。例如,识别方法仅考虑了关键词网络反映的主题演化突变特征而忽略了主题演化融合特征[21],这可能会导致用于识别的关键词网络的结构信息表达不充分,使识别的准确性降低。图表示学习能够对复杂网络的节点关系或整体结构进行建模,可将高维网络结构信息转换为低维稠密的欧几里得空间向量,并在此过程中自动学习网络的特征,因而可应用于分析从论文数据中生成的关键词网络的结构特征,并消除传统方法手动构造高阶特征的弊端。
此外,学者们主要从破坏性、替代性、突变性、跨界性等角度定量识别颠覆性技术,而这些特征是从已发生颠覆效果的技术中总结归纳得到的,所以,在某种意义上这些方法是在衡量待识别技术与已有颠覆性技术之间的相似性。例如,通过突变性识别颠覆性技术是分析待识别技术是否存在或将存在与已有颠覆性技术相似的突变演化方式,通过跨界性识别颠覆性技术是分析待识别技术是否存在或将存在与已有颠覆性技术相似的跨界融合的发展趋势,通过破坏性识别颠覆性技术是分析待识别技术是否具备或将具备与已有颠覆性技术相似的社会、市场影响力。既然是衡量技术间的相似性,那么就可以尝试通过机器学习的方式去判断潜在的颠覆性技术,从而规避复杂的特征工程和烦琐的模型。Chen等[22]首次将有监督的机器学习应用到颠覆性技术识别领域,其基于包括科学文献数据在内的多源数据,通过随机森林等二分类算法识别潜在的颠覆性技术,但这是一种有监督的学习方法,而目前公认的颠覆性技术较少,因此,如何获取训练集中标签属性及保证属性的正确性是这类研究面临的挑战之一。
1.2 图表示学习及其应用
图表示学习,也称为图嵌入学习、网络表示学习或网络嵌入学习,其能将图中节点、边、子图或整图嵌入低维、常见的欧几里得空间中,并在此过程中保留图中复杂的拓扑结构信息、顶点内容信息甚至其他辅助信息,可以很大程度上解决传统邻接矩阵等方法中的高维稀疏矩阵的维数灾难以及大规模网络的可扩展性等问题[23]。图表示学习能使后续分析任务轻松利用机器学习等模型在新的向量空间中处理复杂的图结构数据,从而绕开了从原始网络数据中进行繁复、耗时的高阶特征构建工作。
图表示学习为在向量空间中高效、轻松处理各种复杂网络的各种分析任务铺平了道路。例如,社交网络中的人员聚类[24]、社区检测[25]、产品推荐[26]等任务,合著网络的作者合作预测[27-28]、专家推荐[29]等任务,知识图谱网络中的知识图谱构建工作[30]以及生物网络中的药物性质预测与药物构建任务[31]等。除了上述节点级别表示学习的分析与应用研究之外,近年来,图级别表示学习的分析与应用工作也逐渐增多。图级别表示学习通过学习获得全图的欧几里得空间向量,并捕捉图级别的拓扑信息,使相似的图在嵌入的欧几里得空间中距离更小。这种方法已被应用于解决多领域的图分类任务、图聚类任务等图相似性分析问题。例如,在生物信息领域,通过图表示学习分类不同蛋白质网络,进而判断蛋白质的功能[32-33];在知识图谱领域,通过学习查询图等的表示解决知识图谱复杂问答问题[34-35]等。
综上所述,本文尝试引入图表示学习,提出一种仅需少量标签数据且无需人工构造高阶特征的颠覆性技术识别方法。该方法利用图级表示学习获取技术对应论文的关键词共现网络的欧几里得空间向量序列,并基于欧几里得空间向量计算待识别技术与已知颠覆性技术之间的距离,以间接反映待识别技术的演化过程与已知颠覆性技术的演化过程之间的相似性,进而判断待识别技术是否为颠覆性技术。
2
研究方法
颠覆性技术识别的关键是识别潜在技术是否具备颠覆性技术的某些特征,而图表示学习能够捕捉技术对应关键词网络的演化特征,有助于分析待识别技术是否与已知颠覆性技术具备相似演化特征。需要注意的是,这种基于图表示学习的特征抽取方法不同于人工构造的高阶特征,其继承了神经网络的“黑盒”特性,即难以洞悉模型究竟捕捉何种特征。本文提出的方法具体包括关键词网络构建、关键词网络表示学习以及潜在颠覆性技术识别等步骤,具体实现思路如图1所示。首先,基于科技文献数据构建加权关键词网络;其次,采用有偏匿名游走机制生成游走序列,并借鉴word2vec表示学习模型训练游走序列,获取能反映技术演变信息的关键词网络的欧几里得向量;最后,利用DTW距离比较待识别技术的欧几里得空间向量序列与公认颠覆性技术的欧几里得空间向量序列的相似性,从而判断待识别技术是否为潜在颠覆性技术。
图1 基于图表示学习的颠覆性技术识别方法模型
2.1 关键词网络构建
关键词共现是指在期刊论文等文献中存在着一些关键词经常同时出现在同一篇文献的现象,其能够反映这些词之间的亲疏关系,并分析这些词所代表的主题随时间的演化情况。基于论文、专利数据的关键词共现网络便是分析这种演变信息的有效媒介,因科技论文数据规范且关键词较易获取,因此本文以科技论文为基本数据来源。关键词网络构建的重点在于关键词的抽取和网络的权重确定。
2.1.1 关键词抽取
论文的关键词由作者自标关键词和LDA(latent Dirichlet allocation)主题模型抽取的主题词构成。对于缺少作者自标关键词的论文,本文使用LDA主题模型从摘要和题目中抽取学科主题。对于有作者自标关键词的论文,提取摘要和标题中的有用信息以补充作者自标关键词。在利用LDA抽取主题时,本文将所有作者自标的关键词添加到字典中,以确保机器更加倚重作者定义的关键词来切割术语。最后,综合作者自标关键词和LDA主题模型抽取的关键词形成最终的关键词集合。
2.1.2 关键词网络权重确定
由于颠覆性技术具有高度前瞻性,不同水平论文所产生的影响力与贡献不同。因此,应当赋予不同影响力的论文对应关键词不同的权重。论文影响力一般通过引文数量度量,但对于发表年份接近当前时间节点的论文,其引用数量难以评判论文影响力,因此,本文将通过论文对应期刊的整体水平间接反映论文水平。SJR(SCImago journal rank)是对期刊整体水平的客观评价,是目前认可度和影响力较大的衡量期刊水平的指标[36]。本文使用SJR指标构建关键词权重模型。对于关键词网络G=(V,E,Ω),V={v1,v2,⋯,vn}是顶点n(关键词)的集合,E⊆V×V是边(关键词共现关系)的集合,Ω是边的权重的集合。对于关键词网络G中任意边e=(u,v)的权重ωe∈Ω,有
其中,j∈J,J为顶点u,v共现文章的集合;SJRj为文章j所对应期刊的SJR指数;Q为关键词网络中所有共现顶点对应文章的集合;max (SJRQ)、min (SJRQ)分别为关键词网络所有顶点相应文章对应期刊的SJR指数的最大值和最小值。
2.2 关键词网络表示学习
图级表示学习提供了一种用于计算图相似度的简单有效的方法,可将图转换为保留了图结构信息的欧几里得低维向量,因此,可以高效地比较图之间的相似性。本文在匿名游走模型基础上,结合关键词网络的特点,设计了以下关键词网络表示学习模型。首先,对关键词网络构建随机游走序列,以采样获取关键词网络的结构信息;其次,对游走序列采取匿名化处理,以保证关键词网络的表示与网络节点标签无关,即最终不同关键词网络能够映射到同一空间中;最后,利用word2vec模型训练匿名游走序列,以获取关键词网络的欧几里得向量表示。
2.2.1 构建随机游走序列
游走采样的目标是尽可能保留网络的结构信息,即让同一个社区内的结点表示能够相互接近,在不同社区内扮演相似角色的结点表示也要相互接近。可采用深度优先和广度优先两种游走策略。深度优先游走策略能限制游走序列中重复出现结点的频率,使游走向更远的方向生长;广度优先游走策略则促进游走不断地回头,去访问上一步结点的其他邻居结点。广度优先策略将会在一个社区内长时间停留,使一个社区内的结点互相成为邻居,这就实现了第一条优化目标。相反地,当使用深度优先的策略时,游走难以在同一个社区内停留,这就实现了第二条优化目标。本文采用结合广度优先游走策略和深度优先游走策略的有偏动态随机游走机制。
对于上文构建的关键词网络G=(V,E,Ω),构建随机游走图R=(V,E,P),对于每条边e=(u,v)有权重pe∈P,则
其中,t、u、v分别表示随机游走序列的上一节点、当前节点和下一节点,且u∈Nnbhd(t),v∈Nnbhd(u),Nnbhd(t)表示节点t的所有一阶邻居构成的集合;ω(u,v)∈Ω和αpq(u,v)分别表示控制广度优先游走策略和深度优先游走策略的超参数。当v=t,即下一节点回到上一节点时,则αpq(u,v)=1;当v∈Nnbhd(t),即下一节点为上一节点的一阶邻居时,则αpq(u,v)=1/p;当v∉Nnbhd(t),即下一节点不是上一节点的一阶邻居时,则αpq(u,v)=1/q。依据随机游走图R采样生成随机游走序列w=(u1,u2,⋯,uk)。
2.2.2 匿名化随机游走序列
采样得到的随机游走序列能够反映关键词网络的网络结构信息,但是游走序列所携带的信息与节点标签信息密切相关。例如,w1=(光子,光电振荡器,外调制,光电振荡器),w2=(区块链,比特币,去中心化,比特币),两个不同关键词网络对应的随机游走序列处于不同的空间,难以通过下文的神经网络将其有效地映射到同一向量空间。因此,需要在上文构建的随机游走序列的基础上,采用匿名机制,即不记忆具体游走节点标签信息,而是记录游走节点第一次出现时的序号,且Micali等[37]证明这种处理后的序列包含能够重建网络的结构信息。对上文获得的随机游走序列w=(u1,u2,⋯,uk)进行处理形成匿名游走序列a=(b1,b2,⋯,bk)=(f(u1),f(u2),⋯,f(uk)),其中,uk∈w=(u1,u2,⋯,uk),f(uk)=pos(uk,unique(w)),unique(w)为随机游走序列w按序剔除重复节点后的序列,pos(uk,unique(w))则返回uk在unique(w)序列中的位置索引。例如,对于上文的w1序列,unique(w1)=(光子,光电振荡器,外调制),pos(光电振荡器, unique(w1))=2,形成匿名游走序列a1=(1,2,3,2)。对于w2,其匿名游走序列a2=(1,2,3,2)。
2.2.3 学习匿名游走序列的表示
2.3 潜在颠覆性技术识别
3
实验过程及结果分析
为检验本文方法的有效性,实验综合考虑近年来国内外与颠覆性技术有关的战略规划、预测报告等,共选出10项技术(如表1所示)。其中,选取5项技术作为实验对象,即待识别技术(在这5项技术中存在非颠覆性技术),其他5项技术作为已知的颠覆性技术,即本文方法中提到的标签数据。实验目标是采用本文方法从待识别的5项技术中有效识别出颠覆性技术。
3.1 实验准备及过程
3.1.1 数据来源
实验选取的10项技术中有8项是目前被广泛视为颠覆性技术的技术,另外2项技术是前期被视为颠覆性技术,后因科学原理限制或市场发展变化而被否认的伪颠覆性技术。因此,实验选取3项颠覆性技术(5G无线网络、边缘计算、合成生物)以及2项伪颠覆性技术(冷聚变、电动自平衡车)作为待识别技术集,即本文的实验对象。另外5项技术(区块链、无人驾驶、基因编辑、3D打印、云计算)作为实验中的已知颠覆性技术集,即弱监督模型的标签数据。然后,从WoS核心合集数据库中获取了上述技术的相关论文数据(检索时间范围为1985年1月1日—2022年1月20日,检索式如表2所示)、技术对应论文数量分布与起止年份等,如图2所示。其中每个技术领域的数据进行了归一化处理。
图2 10项技术对应论文数量与年份分布
3.1.2 实验过程及超参数设置
具体实验过程如下:①关键词网络构建。首先,对WoS数据进行预处理,并利用nltk对关键词进行了词型还原;其次,利用LDA模型结合作者自标关键词,获取论文关键词集合;最后,利用2016—2020年的SJR平均值作为权重构建关键词网络。②关键词网络表示学习。设置超参数p=q=1构建随机游走序列,即本次实验采用无偏随机游走生成序列,再使用匿名游走机制匿名化随机游走序列语料。其中,语料采样过程中,根据各技术关键词网络规模设置各技术匿名游走序列长度,如表3所示,以任一节点为初始节点生成的匿名游走序列数量即语料上下文宽度为15,整图期望采样次数为2(实验生成匿名游走序列数量为1768264281000000条)。利用python的gensim库训练匿名游走序列集的word2vec向量。其中,嵌入向量大小设置为49,最小词频为1,对语料训练20次,获取嵌入向量,并对对应关键词网络的所有游走序列嵌入向量加权平均获得整图向量。③潜在颠覆性技术识别。利用python的dtaidistance库计算待识别技术归一化后的欧几里得空间向量序列与公认颠覆性技术归一化后的向量序列之间的DTW距离,最后分析待识别技术是否为潜在颠覆性技术。
3.1.3 实验过程中间数据介绍
图表示学习与神经网络类似,具有“黑盒”特性,其训练中产生的中间数据并未蕴含太多直观的有用信息,但对其的举例介绍与展示有助于理解模式的整体流程。
(1)构建的关键词网络。本文生成的关键词网络与图情领域常见关键词网络一致。
(2)生成的匿名化随机游走序列语料。匿名化随机游走序列语料是将固定长度(超参数)的关键词游走序列抹去具体游走节点标签信息,仅记录游走节点第一次出现时的序号,并将这种序号结构映射到一个数字。例如,3D打印技术2020年生成的语料信息(部分)如图3所示。
图3 3D打印技术2020年生成的匿名化随机游走序列语料信息(部分)
(3)生成的整图向量。实验中设置的嵌入向量大小设置为49,例如,区块链技术2020年关键词网络生成的向量如图4所示,一待识别技术与一已知颠覆性技术的相似性便是利用DTW距离度量两个技术嵌入向量时间序列的相似性。
图4 区块链技术2020年关键词网络生成的向量
3.2 实验结果与分析
按照本文的方法步骤,最终计算出待识别技术与公认颠覆性技术之间DTW距离(如图5所示)。由图5可知,冷聚变、电动自平衡车与公认颠覆性技术(区块链、无人驾驶、基因编辑、3D打印、云计算)的DTW距离均远大于5G无线网络、边缘计算、合成生物与公认颠覆性技术之间的DTW距离。因此,当24.33<α<35.42时,对于任意0≤β≤5,本文方法均可将3项潜在颠覆性技术识别为颠覆性技术,并将2项非颠覆性技术识别为非颠覆性技术。
图5 待识别技术与已知颠覆性技术之间的DTW距离分布
绘制10项技术之间的DTW距离热力图(图6),可明显看出,不仅待识别的3项颠覆技术与5项已知颠覆性技术之间DTW距离较小,且5项已知颠覆性技术互相的距离也较小。还能发现区块链、云计算、边缘计算等近年新兴的颠覆性技术之间的DTW距离更小,合成生物、基因编辑等发展超20年的颠覆性技术之间也是如此。
图6 10项技术之间DTW距离热力图
此外,颠覆性技术具备突变的特性,即其不会按照传统技术轨道与S曲线理论进行可预测的技术演化,而是呈现一种非连续性状态[43],因此,通过分析本次实验中各技术演化过程的突变情况能进一步验证本文方法的有效性。对实验获得的各项技术的表示向量计算每一项技术每一年与该年前两年之间的加权欧几里得距离(前一年权值为0.8,前两年为0.2),利用归一化后的加权欧几里得距离序列反映各项技术随时间发展的突变性,绘制突变情况如图7所示。从图7可以看出,颠覆性技术(包括区块链、边缘计算等8项技术)在其技术发展生命周期内会出现一两次相较于其他时间段较大的变化,而伪颠覆性技术(冷聚变、电动自平衡车)则整体波动较为均匀。同时,本文实验所得到的技术突变性情况整体上也符合技术发展历程。例如,图7中合成生物技术在2003—2004年、2007—2008年、2014—2015年出现较大幅度的变化,与该技术2004年左右研究领域扩大、2008年左右新技术和工程手段大为拓展合成生物学研究与应用领域、2014年后以IT技术为主的各项前沿理念不断为合成生物领域赋能使之进入新阶段的发展历程整体一致[44],以及区块链技术2017年后的应用领域迅速扩展、2012基因编辑技术基石研究CRISPR/Cas9系统的提出等历程,与图7中区块链技术2018年、基因编辑技术2013年等的突变情况大体吻合[45]。但也发现模型不能较好地避免技术发展初期关键词共现网络规模与后期差异过大带来的小网络表示学习效果不理想的问题,这是未来研究需要进一步解决的问题之一。
图7 各项技术突变趋势
4
总结与展望
针对潜在颠覆性技术的识别问题,本文提出一种基于图表示学习的半监督方法。该方法利用了图表示学习能够自动学习网络结构特征,并将高维信息转换为低维稠密的欧几里得向量的优点,借助匿名机制有偏游走获取关键词网络的匿名游走序列,基于此训练获取了能表示关键词网络结构信息的向量表示,最终通过DTW距离分析待识别技术与公认颠覆性技术间演化的相似程度,进而判断待识别技术是否为潜在颠覆性技术。与传统颠覆性技术识别方法相比,本文采用的半监督方法主要优势有:①该方法为定量方法,较少依赖主观数据;②该方法基于机器学习方法,获取数据特征时不需要人为进行特征提取;③该方法为半监督方法,不需要大量标签数据。本文研究的不足:由于已公认的颠覆性技术、非颠覆性技术的选取具有较高的难度,本文实验对象选取数量有限,选择领域集中在生物、电子信息领域,未考虑到航空航天等其他领域,未能在同领域或不同领域中进行方法的比较验证。
未来可从如下两个方面进行深入研究:①本文仅利用了论文数据,下一步可考虑利用专利、市场等方面的数据,这些数据也能为颠覆性技术识别提供支撑,综合多源异构数据作为数据来源或能优化研究方法;②本文的图表示学习模型不能充分学习关键词网络中的时序信息。本文采用了按年度划分技术的关键词网络,转化为向量表示后再利用DTW距离衡量技术间的相似性。未来可引入动态网络表示学习模型,或能更好地捕获关键词网络演化的特征,进而优化该方法。
参考文献
[1] 开庆, 窦永香 . 颠覆性技术识别研究综述[J]. 情报杂志, 2021,40(11): 31-38.
[2] 张金柱, 张晓林 . 利用引用科学知识突变识别突破性创新[J].情报学报, 2014, 33(3): 259-266.
[3] 白光祖, 郑玉荣, 吴新年, 等. 基于文献知识关联的颠覆性技术预见方法研究与实证[J]. 情报杂志, 2017, 36(9): 38-44.
[4] 孙永福, 王礼恒, 孙棕檀, 等. 引发产业变革的颠覆性技术内涵与遴选研究[J]. 中国工程科学, 2017, 19(5): 9-16.
[5] Blume M, Oberländer A M, Röglinger M, et al. Ex ante assess‐ment of disruptive threats: identifying relevant threats before one is disrupted[J]. Technological Forecasting and Social Change,2020, 158: 120103.
[6] Dixon T, Eames M, Britnell J, et al. Urban retrofitting: identify‐ing disruptive and sustaining technologies using performative and foresight techniques[J]. Technological Forecasting and Social Change, 2014, 89: 131-144.
[7] Ganguly A, Nilchiani R, Farr J V. Defining a set of metrics to evaluate the potential disruptiveness of a technology[J]. Engineer‐ing Management Journal, 2010, 22(1): 34-44.
[8] Drew S A W. Building technology foresight: using scenarios to embrace innovation[J]. European Journal of Innovation Manage‐ment, 2006, 9(3): 241-257.
[9] Burt G. Why are we surprised at surprises? Integrating disruption theory and system analysis with the scenario methodology to help identify disruptions and discontinuities[J]. Technological Fore‐casting and Social Change, 2007, 74(6): 731-749.
[10] Brimley S, Fitzgerald B, Sayler K. Game changers: disruptive technology and U.S. defense strategy[R]. Washington D.C.: Cen‐ter for a New American Security, 2013.
[11] Linton J D. Forecasting the market diffusion of disruptive and dis‐continuous innovation[J]. IEEE Transactions on Engineering Management, 2002, 49(4): 365-374.
[12] Adner R. When are technologies disruptive? A demand-based view of the emergence of competition[J]. Strategic Management Journal, 2002, 23(8): 667-688.
[13] Chen C, Zhang J, Guo R S. The D-Day, V-Day, and bleak days of a disruptive technology: a new model for ex-ante evaluation of the timing of technology disruption[J]. European Journal of Oper‐ational Research, 2016, 251(2): 562-574.
[14] Stelzer B, Meyer-Brötz F, Schiebel E, et al. Combining the sce‐nario technique with bibliometrics for technology foresight: the case of personalized medicine[J]. Technological Forecasting and Social Change, 2015, 98: 137-156.
[15] Momeni A, Rost K. Identification and monitoring of possible dis‐ruptive technologies by patent-development paths and topic mod‐eling[J]. Technological Forecasting and Social Change, 2016,104: 16-29.
[16] Cheng Y, Huang L C, Ramlogan R, et al. Forecasting of potential impacts of disruptive technology in promising technological ar‐eas: Elaborating the SIRS epidemic model in RFID technology[J]. Technological Forecasting and Social Change,2017,117:170-183.
[17] 黄鲁成, 成雨, 吴菲菲, 等 . 关于颠覆性技术识别框架的探索[J]. 科学学研究, 2015, 33(5): 654-664.
[18] Bloodworth I. A search for discriminative linguistic markers in ICT practitioner discourse, for the ex ante identification of disrup‐tive innovation[D]. Wellington: Victoria University of Welling‐ton, 2012.
[19] Dotsika F, Watkins A. Identifying potentially disruptive trends by means of keyword network analysis[J]. Technological Forecast‐ing and Social Change, 2017, 119: 114-127.
[20] Li X, Xie Q Q, Jiang J J, et al. Identifying and monitoring the de‐velopment trends of emerging technologies using patent analysis and Twitter data mining: the case of perovskite solar cell technol‐ogy[J]. Technological Forecasting and Social Change, 2019, 146:687-705.
[21] 李乾瑞, 郭俊芳, 黄颖, 等. 基于突变-融合视角的颠覆性技术主题演化研究[J]. 科学学研究, 2021, 39(12): 2129-2139.
[22] Chen X L, Han T. Disruptive technology forecasting based on gartner hype cycle[C]// Proceedings of the 2019 IEEE Technolo‐gy & Engineering Management Conference. Los Angeles: IEEE,2019: 1-6.
[23] Zhang D K, Yin J, Zhu X Q, et al. Network representation learn‐ing: a survey[J]. IEEE Transactions on Big Data, 2020, 6(1): 3-28.
[24] Shi B X, Yang J, Weninger T, et al. Representation learning in het‐erogeneous professional social networks with ambiguous social connections[C]// Proceedings of the 2019 IEEE International Conference on Big Data. Los Angeles: IEEE, 2019: 1928-1937.
[25] Li D Y, Lin Q, Ma X K. Identification of dynamic community in temporal network via joint learning graph representation and non‐negative matrix factorization[J]. Neurocomputing, 2021, 435:77-90.
[26] Ge S Y, Wu C H, Wu F Z, et al. Graph enhanced representation learning for news recommendation[C]// Proceedings of the Web Conference 2020. New York: ACM Press, 2020: 2863-2869.
[27] 余传明, 林奥琛, 钟韵辞, 等. 基于网络表示学习的科研合作推荐研究[J]. 情报学报, 2019, 38(5): 500-511.
[28] 张鑫, 文奕, 许海云 . 一种融合表示学习与主题表征的作者合作预测模型[J]. 数据分析与知识发现, 2021, 5(3): 88-100.
[29] Nikzad-Khasmakhi N, Balafar M A, Feizi-Derakhshi M R, et al.BERTERS: multimodal representation learning for expert recom‐mendation system with transformers and graph embeddings[J].Chaos, Solitons & Fractals, 2021, 151: 111260.
[30] 宁原隆, 周刚, 卢记仓, 等. 一种融合关系路径与实体描述信息的知识图谱表示学习方法[J]. 计算机研究与发展, 2022, 59(9):1966-1979.
[31] 陈鑫, 刘喜恩, 吴及. 药物表示学习研究进展[J]. 清华大学学报(自然科学版), 2020, 60(2): 171-180.
[32] Fout A, Byrd J, Shariat B, et al. Protein interface prediction using graph convolutional networks[C]// Proceedings of the Advances in Neural Information Processing Systems. Cambridge: MIT Press, 2017: 6530-6539.
[33] Gilmer J, Schoenholz S S, Riley P F, et al. Neural message pass‐ing for quantum chemistry[C]// Proceedings of the 34th Interna‐tional Conference on Machine Learning. New York: ACM Press,2017: 1263-1272.
[34] 孙亚伟, 程龚, 厉肖, 等. 基于图匹配网络的可解释知识图谱复杂问答方法[J]. 计算机研究与发展, 2021, 58(12): 2673-2683.
[35] Saxena A, Tripathi A, Talukdar P. Improving multi-hop question answering over knowledge graphs using knowledge base embed‐dings[C]// Proceedings of the 58th Annual Meeting of the Associ‐ation for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2020: 4498-4507.
[36] 王一华 . 基于 IF (JCR)、IF (Scopus)、H 指数、SJR 值、SNIP 值的期刊评价研究[J]. 图书情报工作, 2011, 55(16): 144-148.
[37] Micali S, Zhu Z A. Reconstructing Markov processes from inde‐pendent and anonymous experiments[J]. Discrete Applied Mathe‐matics, 2016, 200: 108-122.
[38] Lau J H, Baldwin T. An empirical evaluation of doc2vec with practical insights into document embedding generation[C]// Pro‐ceedings of the 1st Workshop on Representation Learning for NLP. Stroudsburg: Association for Computational Linguistics,2016: 78-86.
[39] Yang Z C, Yang D Y, Dyer C, et al. Hierarchical attention net‐works for document classification[C]// Proceedings of the 2016Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.Stroudsburg: Association for Computational Linguistics, 2016:1480-1489.
[40] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[OL]. (2013-09-07). https://arxiv.org/abs/1301.3781.
[41] 李海林, 邬先利. 基于时间序列聚类的主题发现与演化分析研究[J]. 情报学报, 2019, 38(10): 1041-1050.
[42] Shokoohi-Yekta M, Hu B, Jin H X, et al. Generalizing DTW to the multi-dimensional case requires an adaptive approach[J]. Da‐ta Mining and Knowledge Discovery, 2017, 31(1): 1-31.
[43] 王康, 陈悦, 宋超, 等. 颠覆性技术: 概念辨析与特征分析[J]. 科学学研究, 2022, 40(11): 1937-1946.
[44] 赵国屏 . 合成生物学: 开启生命科学“会聚”研究新时代[J]. 中国科学院院刊, 2018, 33(11): 1135-1149.
[45] 陈云伟, 陶诚, 周海晨, 等 . 基因编辑技术研究进展与挑战[J].世界科技研究与发展, 2021, 43(1): 8-23
制版编辑 | 李 静
审核 | 王海燕
国家自然科学基金管理学部A类期刊
全国中文核心期刊
CSSCI来源期刊
《中国人民大学复印报刊资料》重要转载来源期刊
CSTPCD(中国科技论文与引文数据库)收录期刊
NSSD (国家哲学社会科学学术期刊数据库)
长按扫描二维码 | 关注我们
情报学报官网:qbxb.istic.ac.cn
邮箱:qbxb@istic.ac.cn
电话:010-68598273
欢迎投稿!
【免责声明】本公众号主要发布《情报学报》期刊的录用文章,或转载其他媒体与网站的图文资讯。文章仅代表作者本人观点,本公众号对文中陈述、观点判断保持中立。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。抄袭本文至其他渠道者引发的一切纠纷与本公众号平台无关。