当期荐读 2023年第6期 | 基于BP神经网络和MIV算法的高价值专利预测与影响因素分析
图源 | Internet
胡泽文 周西姬
南京信息工程大学管理工程学院,南京,210044
摘要 / Abstract
请输入
通过设计专利价值的多维评估指标,筛选出已公认的高价值专利作为预测目标向量,构建训练集和测试集,运用BP神经网络模型进行潜在高价值专利的自动预测,同时借助MIV算法分析专利价值各维度指标对模型预测结果的贡献和影响程度。研究发现:(1)BP神经网络模型的预测性能较优,预测准确率全部达到89%以上,其中“专利家族规模”评估出高价值专利为预测目标向量的BP神经网络模型表现最优,而“专利家族规模”与“专利被引频次”组合指标评估出高价值专利为预测目标向量的识别模型表现相对较差。(2)MIV绝对值能够有效反映专利价值各维度指标对模型预测结果的影响和贡献程度,其中技术价值维度指标对高价值专利预测结果的影响最为显著。从单个指标的MIV绝对值和总占比来看,专利IPC4分类数、首次被引速度、权利要求数和专利被引频次对各模型高价值专利预测结果的影响程度较大。
关键词
高价值专利 BP神经网络 MIV算法 专利预测 机器学习 专利价值评估
引用格式
胡泽文,周西姬.基于BP神经网络和MIV算法的高价值专利预测与影响因素分析[J].信息资源管理学报,2023,13(6):144-155.
01
引言
专利作为知识产权建设的重要部分,是一种具有排他性的创新发明和应用研究成果,专利中蕴含的技术特征、技术内容、合作关系和技术进展等情报资源能够协助公司、行业甚至国家掌握技术发展趋势、创新科学技术布局和引导经济政策落实。特别是新时代知识产权形势下的高价值专利识别预测研究,能够促进组织迅速形成以高价值专利为核心的专利价值组合培育体系,巩固与提升组织的核心竞争力。国内外学者在明晰高价值专利多维属性的基础上,搭建专利价值评估模型,识别并预测高价值专利,由此对包含此类专利的技术前沿热点展开可视化探究。然而专利价值涉及的维度较多,何为高价值专利,如何定义和测度专利价值,目前尚无统一的标准。胡泽文等[1]辨析了专利质量与专利价值的含义及相互关系,总结归纳了高价值专利的概念内涵,并认为高价值专利可以从经济价值、市场价值、战略价值和法律价值等维度来衡量。根据专利价值重要度,可将专利大致分为一般专利、基础专利、外围专利和核心专利,其中核心专利是否为高价值专利,仍然需要通过不同价值维度的指标来评估[2]。刘勤等[3]提出“四位一体”的高价值专利分析维度,即高水平技术研发、高质量申请确权、高效益转化运用、高起点产业引领是专利高价值的综合体现。目前专利价值评估研究侧重专利的单维度价值测度与评估,而聚焦专利的多维价值评估与海量专利中高价值专利的机器学习识别研究相对较少。
专利价值评估研究涵盖专利市场价值评估、专利法律价值评估、专利技术价值评估和专利文献价值评估。专利市场价值评估与专利可观察到的商业表现相关,即受到知识产权保护的专利维护与更新费用、商品价格和销售额等经济指标的影响[4]。专利法律价值评估主要从象征专利法律保护范围及强度的权利要求数和专利家族规模两大指标出发。专利权利要求数量越多,其界定的法律保护范围越广泛,越能反映出创新技术的重要性和价值[5-6]。专利授权国家数越多,意味着其专利家族规模越庞大,专利权的法律保护强度、侵权诉讼力度表现越好[7]。专利技术价值评估注重考察专利技术覆盖广度和宽度,主要包括IPC分类数。专利所占IPC数量一定程度上体现其技术覆盖范围,是评估专利技术广度及技术特征多样性的重要指标[8]。专利文献价值与专利自身价值和专利引用价值有关,涵盖说明书页数、引用专利数和专利引用文献数等评估指标。Reitzig[9]指出专利文书能对专利详细技术范围及创新表现加以呈现,其包含的全文字数与专利价值呈正相关。
高价值专利的识别与预测发挥着承上启下的重要作用,其评估体系直观反映出专利价值的定义内涵,而专利价值识别与预测结论更是企业科学技术布局的关键依据。现有研究结合相关领域成果,已经将市场价值评估、统计回归和文本分析等各类方法运用于专利价值评估。Choi等[10]发现50%—60%的专利权人并不具备支付更新费的能力,即使他们的专利具有很高的商业潜力。Nagaoka[11]指出,更多的科学参考文献表明专利技术与科学活动间的关联性越强,并与其专利价值呈正相关。近年来,朴素贝叶斯、随机森林和BP神经网络等机器学习算法凭借其在模式识别和智能分类领域的突出表现,成为该领域热门的模型方法。Bass等[12]和Kwon等[13]构建了多种机器学习模型分类器,通过模型分类效果的综合比较,筛选出能够精确预测具有潜在价值专利的算法模型。Trappey等[14-15]以主成分法确定专利价值影响指标,结合神经网络算法训练出价值评估与识别的预测模型。同时,李玉等[16]、马瑞敏等[17]、谢文静等[18]分别运用随机森林、支持向量机和粗糙集等基础及改进算法评估与预测专利价值。
综上所述,目前专利价值评估与识别研究主要侧重专利市场价值、技术价值、法律价值和文献价值的单一指标设计与评估应用,专利价值的多维度指标体系构建与评估应用仍待进一步拓展和延伸。此外,专利价值评估和识别研究侧重于专利不同维度价值的统计分析,以及专利价值指标与专利价值之间的相互关系。尽管机器学习模型在专利价值识别与预测方面开始得到应用,然而目前机器学习方面的应用研究主要基于单独的专利特征对专利价值度进行主观性的评价和界定,进而采用机器学习进行专利价值的分类和预测,侧重于验证模型的效果,缺乏对模型普适性和应用性的深入探讨,使得所构建的模型难以对后续专利价值评判与预测提供参考。
鉴于此,本文从高价值专利多维属性出发,基于集成电路专利和专利价值评估的领域理论研究成果,挖掘具有价值表征能力的指标并加以层次归类,选取广泛用于专利价值评判的不同价值维度指标及其组合作为预测目标。基于不同维度指标值筛选出已公认的高价值专利,并构建融合已公认高价值专利指标向量空间的训练集和测试集,构建融合BP神经网络算法的潜在高价值专利自动识别模型进行训练测试和预测应用。最后通过比较模型的识别预测能力及指标贡献度差异,捕捉不同价值评判标准下的模型特征与预测性能,为在多种情境及复杂需求下,开发与构建具有普适价值的高价值专利识别与预测模型提供参考。
02
专利价值评估指标体系
如表1所示,本文用于专利价值评估与预测的指标体系主要涉及专利综合价值、技术价值、竞争价值和文献价值四大维度。其中,综合价值指标涵盖竞争价值指标(专利家族规模)和技术价值指标(专利被引频次)之间的组合,综合价值指标评估出的高价值专利作为专利价值预测模型的预测目标向量,而技术价值、竞争价值和文献价值三维度指标共同作为高价值专利预测模型的输入变量。
表1 专利价值评估指标体系
2.1 综合价值
专利家族规模和被引频次两个指标分别反映了专利的竞争价值和技术价值,能够综合评判专利价值。专利家族概念源于专利属地特征,即专利在申请国(地区)以外的各国(地区)不具备任何法律及垄断效力,专利须在寻求技术保护的各地分别提交申请,以防止其竞争优势和市场份额受到侵蚀,而专利家族规模是专利申请国家或地区的数量反映。庞大的专利家族意味着更全面的地理保护范围、更广泛的市场覆盖率和更具创新的科学技术潜力[19-21]。同时,专利被引频次也能够全面反映专利的借鉴利用与引用价值,一方面,被引行为具象化了知识流动与溢出,突出该专利对后续创新的影响和启发[22-23],另一方面,具有高被引属性的专利展现出其强大的技术创新能力和市场竞争力[24-25],从多个角度突出其高价值属性。
2.2 技术价值
专利技术价值主要由专利4位IPC分类数、首次被引速度和权利要求数三个指标来衡量。其中首次被引速度是首次引入衡量专利技术价值的新指标,首次被引越快,说明专利技术价值受到认可和使用的速度越快。专利技术以IPC号作为分类依据,涵盖多个主体维度、技术功能和应用场景的专利将被赋予多个IPC号,由此IPC数量成为衡量创新技术通用性、专利维度范畴的重要指标[26-27]。首次被引速度指标能有效规避专利被引的统计滞后问题,高价值专利往往能在较短时间内受到广泛关注和引用,并且首次被引后,专利再次获得引用的机率大幅增加[28],该指标与专利价值的相关性也被众多学者证实[29]。专利权利要求高度概括了创新技术内容,详细规定了专利受保护的技术对象、范围和效果,更多的权利要求意味着该创新技术区别于先前技术的能力越强,技术新颖性与法律效力也越显著[10,30]。
2.3 竞争价值
专利竞争价值主要体现在同族专利规模、发明人规模和专利权人规模三个层面。同族专利是一组具有相同优先权信息,并且密切相关或间接相关的专利集,其包含的单个专利数量通常是专利族技术布局能力、法律运维能力和市场开发能力的重要体现,综合反映了专利的竞争价值[31]。发明人与专利权人规模量化了专利研发投入、技术资源维护和创新成果运营情况,可进一步反映出专利具备高竞争价值的潜质[32-33]。
2.4 文献价值
专利文献价值评估可从专利说明书页数、引用专利数和引用文献数三项指标出发。专利说明书详细阐述了创新技术覆盖范围和特殊性,其文本长度是专利文献价值的重要体现[9]。专利引用体现了该专利与现有技术和知识体系的联结,是创新技术知识积累的表现形式[34-35]。具体来说,引用专利突出了专利的技术基础和应用研究成果[36],而引用文献则关联于“知识补充”的科学和基础研究成果[37]。
03
研究数据与方法
文章研究框架及步骤可概述为:①基于Python编写网络爬虫程序,从德温特世界专利索引(Derwent Innovations Index,DII)数据库获取集成电路领域发明专利的详细信息,提取并测度专利价值的各维度指标数据;然后构建以衡量高价值专利的专利家族规模和专利被引频次指标,以及两者的组合指标“专利家族规模+专利被引频次”为输出因变量,其余指标为输入自变量的高价值专利预测样本数据。②借助Matlab平台设计和实现基于BP神经网络算法的高价值专利预测模型,结合经验公式和手工调参等多种方式,通过训练集寻找预测模型的最优参数,完成基于神经网络模型的高价值专利预测应用。③综合比较预测模型的性能表现,并结合MIV算法量化分析各维度指标对模型价值评判的重要程度。
3.1 研究数据
第一,专利数据采集。在国内外权威网站(百度百科、Wikipedia、JEDEC固态技术协会等)、文献数据库(中国知网、Web of Science核心合集)及全球性专利收录平台(Incopat专利平台、DII专利数据库),以“集成电路/ integrated circuit”为初始关键词检索,滚雪球式组建集成电路术语集,用以形成专业检索式TS=("integrated circuit" OR IC OR microcircuit OR microchip OR chipset OR "semiconductor chip" OR "IC chip" OR "integrated circuit chip" OR "integrated circuit chip" OR unicircuit OR molectron OR "integrated semiconductor")。借助德温特世界专利索引DII平台检索出专利信息,使用Python程序对专利数据进行爬取。考虑到专利被引频次的引用周期是五年,因此将专利公开日期设为2015年,检索时间为2021年7月28日,共得到32303条集成电路领域专利。
第二,专利价值指标测度。高价值专利预测涉及到专利价值各维度指标数据的采集与测度。其中包含专利家族规模、IPC4分类等在内的10项指标,能够通过DII专利索引平台导出指标的原始数据。而专利五年被引频次和首次被引速度两大指标数据需要利用Python程序爬取专利引用信息,并进行统计和测度。其中,专利首次被引速度是通过计算专利首次被引年份与优先权专利公开年份的差值所得。同时,为区分零被引专利与公开年即被引专利的首次被引速度差异,且考虑到专利被引速度指标的负向价值体现属性,将零被引专利的首次被引速度设置为最长被引周期加1,即28,防止出现零被引专利首次被引速度误用的问题。表2是对专利价值各维度指标数据的描述性统计。
表2 专利价值各维度指标数据的描述性统计
由表2可知,综合价值指标中专利被引频次与专利家族规模数据范围跨度较大。前者较为集中分布在[0, 312]数值区间内,后者以40.969的较大标准差,分散在以15.492为均值的[0,144]区间内。然而专利技术价值和竞争价值维度6项指标的数值分布范围较窄,数据间差距较小,呈现出集中分布于均值附近的整体态势。而衡量专利文献价值的说明书页数、引用专利数和引用文献数三大指标数据均分布在较宽数值范围内,且个体间离散程度较大。特别是引用专利数指标,数据最小值为0,最大值为997,对应于各指标间最大的标准差,即42.873。
3.2 研究方法
3.2.1 BP神经网络
BP(Back Propagation)神经网络是一种基于误差反向传播算法的多层前馈网络,相较于人工神经网络的简单感知器信息处理范式,BP模型有着强大的复杂模式分类和多维函数映射能力,被广泛应用于分类预测与智能识别领域。BP模型对数据分布没有严格的要求,而支持向量机(Support Vector Machine, SVM)和线性回归(Linear Regression,LR)等传统机器学习的识别效果依赖于特征工程(Feature Engineering)的质量。研究显示,与卷积神经网络(Convolutional Neural Networks, CNN)、长短期记忆网络(Long Short-term Memory, LSTM)、 CNN-LSTM、K最邻近(K-Nearest Neighbor, KNN)和分类回归树等机器学习模型相比,BP神经网络模型在识别高被引论文和高质量Wikipedia论文方面表现出更优的识别准确率和识别速度[38-40] 。
BP神经网络的基本流程如图1所示,该算法主要涵盖信号前向传播和误差反向传播两大过程。前者一般以sigmoid变换函数(表示为 )构建输入-输出信号间的非线性映射关系网络,通过计算实际输出与期望输出间的一般化误差,转入误差反向传播过程。该过程将误差分摊给各层所有单元,采用梯度下降法等寻找各层节点连接权重与阈值的最优组合,以使整体网络均方误差最小。一般来说,研究人员通过指定误差精度或最大学习次数来控制网络生成,以期加速网络收敛速度,避免陷入局部最优的困境。
图1 BP神经网络基本流程图
3.2.2 MIV算法
MIV(Mean Impact Value)算法源自Dombi等[41]对BrainMaker神经网络软件的分析与使用,其通过调整各输入变量的大小,观察神经网络中加权矩阵的变化情况,估算出各指标的平均影响值。具体计算过程如下:①以原始样本数据X训练BP神经网络;②依次对每个变量Xi±10%,分别记作Xi+、Xi-,共得到2I个新的学习样本;③将上述学习样本分别作为已有训练网络的预测样本,仿真后得到预测结果Yi+、Yi-;④两类预测结果的平均差值MIVi即为指标Xi对BP神经网络预测结果的影响权重,也可视作该指标在算法模型中的重要程度。
3.2.3 神经网络模型预测性能的评估指标
通过混淆矩阵评估BP神经网络模型的预测性能,表3展示了高价值专利预测结果的混淆矩阵。其中TP表示正确地分入该类的文档数目;FP表示错误地分入该类的文档数目;FN表示错误地划出该类的文档数目;TN表示正确地划出该类的文档数目。表4展示了模型评估指标的具体定义和测度公式。
表3 混淆矩阵
表4 模型性能评估指标
04
基于BP神经网络的高价值专利预测模型
4.1 高价值专利预测模型框架
本文依据图2所示的逻辑框架图,开展基于BP神经网络的高价值专利预测研究。
图2 高价值专利预测的逻辑框架图
首先将专利的技术价值、竞争价值和文献价值系列指标分别标记为预测自变量X1 -X9;然后选取集成电路领域专利的竞争价值指标(专利家族规模)、技术价值指标(专利被引频次)和综合价值评估指标“专利家族规模+专利被引频次”组合指标为参照标准,分别从领域专利中筛选出专利家族规模位居前5%的专利和专利被引频次位居前5%的高价值专利标记为预测目标变量Y1+ 、Y2+;同时以合并去重原则筛选出涵盖专利家族规模与专利被引频次组合评价指标的高价值专利样本,并标记为预测目标变量Y3+ ;再从集成电路领域剩余专利中随机抽取同等数量的普通专利作为BP神经网络预测目标变量的对照样本变量,分别标记为Y1- 、Y2-、和Y3-。表5展示了预测自变量和预测目标变量的标注情况。
表5 高价值专利预测模型自变量和预测目标变量的标注情况
4.2 模型设计与优化
构建BP神经网络模型,以二分类模式对两类专利(即高价值专利Yi+与普通专利Yi-)加以评估与识别预测。需要预先设置s行2列的全零阵用于构建原始输出矩阵,s为样本个数。预测算法最终以比较两列数值大小的形式,将样本归类于数值较大的类别。以预测变量Y3+的BP神经网络模型为例,表6展示了用于构建模型的部分训练集数据矩阵情况。其中,X1- X9列表示预测模型自变量原始数值,Y3-、Y3+列分别表示样本归于普通专利及高价值专利类别的属性特征。
表6 预测变量ㄚ3+的 BP 神经网络模型训练集数据矩阵情况
此外,考虑到BP神经网络隐藏层神经元个数对模型预测效果的关键作用,本文拟采用以下三种经验公式计算大致节点区间,再通过比对各参数取值下的模型平均预测误差值,确定最优隐藏层节点数N。
其中,n表示输入层单元数,m表示输出层节点数,三组模型输入层数分别为10、10、9,输出层数均为1,得到隐藏层节点取值范围[3,13]、19和21,依次对不同节点下的神经网络的BP神经网络模型训练集数据矩阵情况展开训练,得到对应均方误差值MSE,其数值越小意味着模型预测值与实际值间的平均绝对方差越小,模型预测效果越理想。最终,各模型最优隐藏单元数为11、12和11。
4.3 潜在高价值专利的预测结果分析
通过对模型不同正向信号传递函数和误差反向训练函数的交叉选择与模型训练评估,最终以Tansig函数作为隐藏层传输函数、Purelin函数作为输出层传输函数,Traingdm为反向传播训练函数。图3至图5为各模型仿真结果。
图3 预测变量Y1+的 BP 神经网络模型仿真结果
图4 预测变量Y2+的BP神经网络模型仿真结果
图5 预测变量Y3+的 BP 神经网络模型仿真结果
如图3至图5所示,预测变量Y1- 、Y2-、和Y3-的BP神经网络模型分别经过41次、12次和10次迭代训练后收敛于目标函数,训练集的最优验证精度分别达到了0.017、0.049和0.077。由此,三组模型均以较快速度完成了迭代,精度表现都优于预设值,模型性能较好。
表7展示了BP神经网络模型预测高价值专利的效果指标,从中可以看出,预测变量模型表现最优,于8076个测试样本中正确评估出高价值专利样本7930个,预测准确率98.192%。同时,该模型在预测高价值专利样本时的精确率和召回率指标表现也较为突出,分别为88.221%和78.049%。说明使用专利家族规模指标识别出高价值专利作为预测目标向量的模型性能最优。预测变量Y2+模型虽有93.499%的准确分类样本能力,但其精确识别高价值专利的能力有所欠缺,具体表现为59.483%的精确率、12.614%的召回率以及仅有20.814%的两项指标调和平均F1值。预测变量Y3+模型整体性能排名最后,其能正确预测89.55%的高价值专利样本,但在识别高价值专利的其他效果指标上表现不理想。
表7 高价值专利预测模型性能表现
本文提出的AIRep框架同时考虑提取子集的主题覆盖度、主题冗余及作者影响力,从大规模社会网络信息中提取合适的子集。框架首先采用主题模型提取社交网络信息中的话题分布,随后基于社交网络评论数据,使用PageRank方法对作者影响力进行建模。通过将主题和作者影响力结合,AIRep最终可以提供一个具有代表性的子集,帮助用户了解社交网络信息内容全貌。本文随后的介绍中,对社交网络中的信息主要用文章来指代。
4.4 基于MIV算法的指标重要性分析
本研究运用MIV算法量化分析了专利价值各维度评估指标对预测结果的重要性及贡献度,以期为之后领域研究的指标体系构建与模型选择提供参考性建议。其中,MIV绝对值直观反映出BP神经网络模型中,自变量对预测目标变量结果的影响程度,而MIV数值占比(排名)可进一步度量自变量参与构建预测模型的权重与贡献程度。
如表8所示,专利价值各维度指标对三类预测变量模型的预测结果影响各不相同。从价值维度分析,专利技术价值指标在每个目标变量预测模型中的重要程度都是最高的,所占比重分别为53.86%、93.02%和60.24%,MIV绝对值分别为0.11、0.54和0.06,显示出技术维度对专利价值评估的关键作用。其次是文献价值和竞争价值指标,其中文献价值维度指标在三类预测模型中的总占比分别达到18.86%、3.32%和24.39%,高于竞争价值维度指标在三类预测模型中的总占比,分别高出9.13%、0.55%和9.03%。说明文献价值对模型预测结果的影响和重要程度相对较高。相较于预测变量Y1+和预测变量Y3+模型各维度指标的相对均衡影响,预测变量Y2+模型预测呈现出以技术价值评估为决定性要素,文献价值和竞争价值影响较小的现象,前者权重占比高达93.02%,后两者仅分别为3.32%和2.77%。
表8 三类预测变量模型中自变量指标的 MI测算结果
从细分指标分析,专利IPC4分类数、首次被引速度、权利要求数和专利被引频次指标对各模型预测结果影响程度较大,而发明人规模、专利权人规模和说明书页数对模型预测结果的影响程度偏低。对于预测变量Y1+模型,专利权利要求数以0.0617的最大权重值作用于高价值专利预测,同时,专利被引频次和首次被引速度分别以0.0350和0.0269的较高MIV值影响模型预测结果。对预测变量Y2+模型预测结果影响最大的指标为IPC4分类数,其权重值为0.4369,占各因素MIV总值的75.76%。排名第二、第三的分别是首次被引速度与权利要求数,其MIV绝对值为0.0576和0.0419。就预测变量Y3+模型而言,首次被引速度与权利要求数分别以0.0329和0.0216的较大权重影响模型对专利价值的评估预测,其余指标MIV值均小于0.014。
05
结 语
高价值专利的评估识别与分类预测已然成为国家形成全新知识产权竞争力的关键,而机器学习在模式识别和智能分类领域的优异表现,使其成为专利价值研究领域最为热门的模型方法。针对现有研究在价值指标体系构建与评判标准上的不足,结合BP神经网络算法强大的复杂模式分类和多维函数映射能力,聚焦集成电路领域发明专利,开展潜在高价值专利的识别与自动预测研究。首先通过单指标和组合指标识别出已公认的高价值专利构建预测目标向量,融合BP神经网络模型构建预测模型,并以MIV算法深入探究各自变量因素对预测结果的影响程度。研究结果显示:①BP神经网络模型的预测性能较优,预测准确率全部达到89%以上。专利家族规模评估出已公认高价值专利为预测目标向量的BP神经网络模型表现最优,预测准确率和精确率分别达到98.192%和88.221%;其次是专利被引频次评估出高价值专利为预测目标向量的预测模型,预测准确率和精确率分别达到93.499%和59.483%;而专利家族规模与专利被引频次组合指标评估出高价值专利为预测目标向量的BP神经网络模型表现相对较差,准确率与精确率分别为89.55%和58.33%。②专利价值各维度指标的MIV值能够有效反映指标对模型预测结果的影响和贡献程度。通过对三组预测模型变量的MIV值测度发现,技术价值维度指标的贡献程度最高,对高价值专利预测结果的影响最大,这一重要性在专利被引频次指标为预测目标的高价值专利预测模型中尤为突出。该模型中技术价值维度指标的MIV绝对值和权重占比都最大,分别达到0.54和93.02%。其中,专利IPC4分类数起到了关键作用,该指标权重占比75.76%。从单个指标因素来说,专利IPC4分类数、首次被引速度、权利要求数和专利被引频次对各模型预测结果的影响程度均较大,其数值表现以较高权重对模型预测结果产生影响。
本研究理论模型构建与实证检验结果可以在一定程度上为专利价值指标构建、专利价值评判与分类、高价值专利自动预测等领域研究提供实证参考与理论支撑。目前国内外主流知识产权和专利数据库如Derwent和Incopat等中并未展现高价值专利的识别与推荐功能。因此本文实现的高价值专利自动预测模型具有较大的应用价值与推广前景。然而本研究在模型设计与实现过程中也存在一些缺陷:①零被引专利首次被引速度的处理问题。海量发明专利中存在一些零被引专利,事实上零被引专利无法测算首次被引速度指标值,因此会存在很多空值,影响模型预测效果。因此考虑到零被引专利被引速度指标的负向价值体现属性,将零被引专利的首次被引速度设置为一个较长的时期周期,防止出现零被引专利首次被引速度误用的问题。②各指标变量在MIV值比较分析时,一定程度上是基于各组模型性能表现一致的前提,而在量化分析各指标影响程度时并未充分考虑模型实际性能的优劣差异,可能导致研究结论不具备较强的普适性。③本文实验过程中使用专利家族规模前5%的专利或专利被引频次前5%的专利或其组合作为识别潜在高价值专利的正向样本,识别出的高价值专利主要从竞争价值和技术价值维度反映专利的高价值。例如专利家族规模前5%的专利和专利被引频次前5%的专利主要依据竞争价值指标和技术价值指标筛选出已公认高价值专利作为预测正向样本;而两个指标的组合是从竞争价值和技术价值两个维度筛选出已公认高价值专利作为预测正向样本。因此本文预测的高价值专利主要指竞争价值或技术价值较高,以及竞争价值和技术价值都较高的高价值专利。未来将从系统性和综合性的角度探索和研究高价值专利的综合判断标准,从而识别出综合价值较高的高价值专利进行传播和推荐。以上问题的解决与研究分析也将为下一步研究提供思路。
参考文献
[1] 胡泽文,周西姬,任萍.基于扎根理论的高价值专利评估与识别研究综述[J].情报科学,2022,40(2):183-192.
[2] 杨中楷,刘则渊,梁永霞.试论基础专利——以汤斯和肖洛的激光专利为例[J].科学学研究,2009,27(5):672-677,782.
[3] 刘勤,杨玉明,刘友华.高价值专利评估建模与实证[J].情报理论与实践,2021,44(2):122-127.
[4] Hikkerova L, Kammoun N, Lantz J S. Patent life cycle: New evidence[J]. Technological Forecasting and Social Change, 2014, 88: 313-324.
[5] Haupt R, Kloyer M, Lange M. Patent indicators for the technology life cycle development[J]. Research Policy, 2007, 36(3): 387-398.
[6] Lagrost C, Martin D, Dubois C, et al. Intellectual property valuation: How to approach the selection of an appropriate valuation method[J]. Journal of Intellectual Capital, 2010, 11(4): 481-503.
[7] Kabore F P, Park W G. Can patent family size and composition signal patent value?[J]. Applied Economics, 2019, 51(60): 6476-6496.
[8] Park Y, Yoon J. Application technology opportunity discovery from technology portfolios: Use of patent classification and collaborative filtering[J]. Technological Forecasting and Social Change, 2017, 118: 170-183.
[9] Reitzig M. Improving patent valuations for management purposes——Validating new indicators by analyzing application rationales[J]. Research Policy, 2004, 33(6/7): 939-957.
[10]Choi J, Jeong B, Yoon J, et al. A novel approach to evaluating the business potential of intellectual properties: A machine learning-based predictive analysis of patent lifetime[J]. Computers & Industrial Engineering, 2020, 145: 106544.
[11]Nagaoka S. Assessing the R&D management of a firm in terms of speed and science linkage: Evidence from the US patents[J]. Journal of Economics & Management Strategy, 2007, 16(1): 129-156.
[12]Bass S D, Kurgan L A. Discovery of factors influencing patent value based on machine learning in patents in the field of nanotechnology[J]. Scientometrics, 2010, 82(2): 217-241.
[13]Kwon U, Geum Y. Identification of promising inventions considering the quality of knowledge accumulation: A machine learning approach[J]. Scientometrics, 2020, 125: 1877-1897.
[14]Trappey A J C, Trappey C V, Wu C Y, et al. A patent quality analysis for innovative technology and product development[J]. Advanced Engineering Informatics, 2012, 26(1): 26-34.
[15]Trappey A J C, Trappey C V, Govindarajan U H, et al. Patent value analysis using deep learning models——The case of IoT technology mining for the manufacturing industry[J]. IEEE Transactions on Engineering Management, 2021, 68(5): 1334-1346.
[16]李玉,王利,周志平,等.基于DBSCAN聚类改进随机森林算法的专利价值评估方法[J].科学技术与工程,2020,20(14):5673-5679.
[17]马瑞敏,尉心渊.技术领域细分视角下核心专利预测研究[J].情报学报,2017,36(12):1279-1289.
[18]谢文静,鲍新中,张楠.基于粗糙集理论的专利价值评估及其实证研究[J].情报杂志,2020,39(8):76-81.
[19]Lee J, Sohn S Y. What makes the first forward citation of a patent occur earlier?[J]. Scientometrics, 2017, 113(1): 279-298.
[20]Neuhäusler P, Frietsch R. Patent families as macro level patent value indicators: Applying weights to account for market differences[J]. Scientometrics, 2013, 96(1): 27-49.
[21]Harhoff D, Scherer F M, Vopel K. Citations, family size, opposition and the value of patent rights[J]. Research Policy, 2003, 32(8): 1343-1363.
[22]Moretti E. Workers' education, spillovers, and productivity: Evidence from plant-level production functions[J]. American Economic Review, 2004, 94(3): 656-690.
[23]Wu M F, Chang K W, Zhou W, et al. Patent deployment strategies and patent value in LED industry[J]. PLoS One, 2015, 10(6): e0129911.
[24]Lanjouw J O, Schankerman M. Patent quality and research productivity: Measuring innovation with multiple indicators[J]. The Economic Journal, 2004, 114(495): 441-465.
[25]Zhang S, Yuan C C, Chang K C, et al. Exploring the nonlinear effects of patent H index, patent citations, and essential technological strength on corporate performance by using artificial neural network[J]. Journal of Informetrics, 2012, 6(4):485-495.
[26]van Zeebroeck N, de la Potterie B P, Guellec D. Claiming more: The increased voluminosity of patent applications and its determinants[J]. Research Policy, 2009, 38(6): 1006-1020.
[27]Petruzzelli A M, Rotolo D, Albino V. Determinants of patent citations in biotechnology: An analysis of patent influence across the industrial and organizational boundaries[J]. Technological Forecasting and Social Change, 2015, 91: 208-221.
[28]Gay C, Le Bas C , Patel P, et al. The determinants of patent citations: An empirical analysis of French and British patents in the US[J]. Economics of Innovation and New Technology, 2005, 14(5): 339-350.
[29]Fisch C, Sandner P, Regner L. The value of Chinese patents: An empirical investigation of citation lags[J]. China Economic Review, 2017, 45: 22-34.
[30]Grimaldi M, Cricelli L, Di Giovanni M, et al. The patent portfolio value analysis: A new framework to leverage patent information for strategic technology planning[J]. Technological Forecasting and Social Change, 2015, 94: 286-302.
[31]Frietsch R, Schmoch U. Transnational patents and international markets[J]. Scientometrics, 2010, 82(1): 185-200.
[32]Martínez -Ruiz A, Aluja-Banet T. Toward the definition of a structural equation model of patent value: PLS path modelling with formative constructs[J]. REVSTAT- Statistical Journal, 2009, 7(3): 265-290.
[33]Munari F, Oriani R. The economic valuation of patents: Methods and applications[M]. Cheltenham, UK: Edward Elgar, 2011.
[34]Lee C Y, Kwon O, Kim M, et al. Early identification of emerging technologies: A machine learning approach using multiple patent indicators[J]. Technological Forecasting and Social Change,2018,127:291-303.
[35]Huang Y, Chen L X, Zhang L. Patent citation inflation: The phenomenon, its measurement, and relative indicators to temper its effects[J]. Journal of Informetrics, 2020, 14(2): 101015.
[36]Schoenmakers W, Duysters G. The technological origins of radical inventions[J]. Research Policy, 2010, 39(8): 1051-1059.
[37]Callaert J, van Looy B, Verbeek A, et al. Traces of prior art: An analysis of non-patent references found in patent documents[J]. Scientometrics, 2006, 69(1): 3-20.
[38]Dang Q V, Ignat C L. Quality assessment of wikipedia articles: A deep learning approach by quang vinh dang and claudia-lavinia ignat with martin vesely as coordinator[J]. ACM SIGWEB Newsletter, 2016. Doi:10.114512996442.2996447.
[39]Wang P, Li X. Assessing the quality of information on Wikipedia: A deep-learning approach[J]. Journal of the Association for Information Science and Technology, 2020, 71(1): 16-28.
[40]Ruan X, Zhu Y, Li J, et al. Predicting the citation counts of individual papers via a BP neural network[J]. Journal of Informetrics, 2020, 14(3): 101039.
[41]Dombi G W, Nandi P, Saxe J M, et al. Prediction of rib fracture injury outcome by an artificial neural network[J]. The Journal of Trauma: Injury, Infection, and Critical Care, 1995, 39(5): 915-921.
(收稿日期:2022-09-15)
作者简介
胡泽文(通讯作者),博士,副教授,博士生导师,研究方向为数据智能与情报分析,知识挖掘与知识服务,Email: huzewen915@163.com;
周西姬,硕士,研究方向为数据智能与情报分析。
* 原文载于《信息资源管理学报》2023年第6期,欢迎个人转发,公众号转载请联系后台。
* 引用格式
胡泽文,周西姬.基于BP神经网络和MIV算法的高价值专利预测与影响因素分析[J].信息资源管理学报,2023,13(6):144-155.往期 · 推荐
当期荐读 2023年第6期 | 搜索即学习视角下知识捕获与学习效果的影响因素研究——以健康信息学习型搜索为例
当期荐读 2023年第6期 | 消极情感对社交网络用户间歇性中辍行为的影响机理:基于一项混合研究
▲点击访问信息资源管理学报小程序
制版编辑 | 王伊杨
审核 | 于 媛
长按识别二维码关注我们
信息资源管理学报
微信号
xxzyglxb
分享、在看与点赞
只要你点,我们就是朋友😊