查看原文
其他

论文荐读 2019年第2期 | 基于知识概念的技术新陈代谢分析:以3G 到5G 的技术升级为例

王贤文 田文灿 等 信息资源管理学报 2022-04-25


基于知识概念的技术新陈代谢分析:

以3G 到5G 的技术升级为例


王贤文1,2   田文灿1,2   胡志刚1,2

(1. 大连理工大学科学学与科技管理研究所,大连,116024; 

2. 大连理工大学 WISE实验室,大连,116024)


摘要

本研究提出基于知识概念的产生、生长和消亡的技术新陈代谢分析方法。基于IEEE Xplore数据库,以3G—5G技术为例,利用LLR算法和相关数据库技术,探讨了在技术升级过程中新知识概念随时间的生长情况,对各领域的研究主题进行历时分析,并对有长久生命力的研究主题进行挖掘。研究结果表明:技术升级会带来技术的新陈代谢,造成知识概念波峰的产生,延长研究领域的生命周期;在技术升级过程中新研究主题侧重于时代名词及技术方法,而那些长盛不衰的研究主题更侧重于理论与模型。

关键词


 技术升级  技术新陈代谢  3G  4G  5G  LLR算法  IEEE Xplore 


1

引言


随着自动驾驶、人工智能、物联网等概念的涌现与火爆,万物互联成了未来的发展趋势,而5G技术则在中间扮演着重要角色[1]。1G—5G是一部活生生的科技进化史,而自3G技术始,才真正引领了一场移动互联网的革命,甚至有人说5G将会带来第3次互联网革命。事实上,虽然5G 比目前最快的4G 连接速度快100倍(4G比3G 快10倍),但速度的增加也仅是5G将会带来的技术进步之一[2]。

相对于4G 来说,5G 具有更高的速率、更大的连接数和更低的延时。有人说,5G 是全能网络,会为整个互联网带来质变。除了速度极大地提升外,5G 还带来极低的网络延迟以及针对不同设备的分层网络等从未有过的技术进步。在技术层面上,这就要求5G 中必须增加新技术来实现上述3个优势。在 3GPPRAN1 (3GPPRAN是指第3 代合作项目:无线接入网络)第87次会议上就5G短码方案进行讨论,最终 Polar(华为方案)战胜了 LDPC(美国方案)和 Turbo2.0(法 国 方 案 )。 在 4G 时代,Turbo1.0方案曾是基础,从4G到5G,既有mmWave( 毫 米 波 )、 Masssive MIMO、 Beam Management(波速管理)、LDPC 编码等新技术的运 用, 也 有 UL Waveform、Subframe Structure、HARQ等老技术的升级。

有不少学者就技术升级对某个行业所产生的影响进行了研究。 如 Autor[3]研究了计算机领域的技术升级是如何改变工作技能要求的,揭示了技术升级与教育升级之间的正相关关系;Hung[4]通过基于引用的主路径分析的扩展来研究磷酸铁锂(LFP)电池在技术升级过程中的知识扩散路径,揭示了LFP电池技术已经完成了两个完整的技术周期并处于第3 周期中间;Funk[5]概述了研究技术升级的网络方法;Karali[6]通过模拟技术升级来研究其对美国钢铁行业节能的影响,结果表明技术升级会减少技术投资成本,并可节约能源。 亦有不少学者研究了技术升级过程对企业的影响[7-9] 。本研究,想要探索如何从科学文献的角度,观察技术升级所带来的技术的新陈代谢。


2

数据来源与研究方法


IEEE Xplore是一个学术文献数据库,主要提供计算机科学、电机工程学和电子学等相关领域文献的索引、摘要以及全文下载服务(包括期刊文章,会议录,技术标准和相关材料)。该库基本覆盖了电气电子工程师学会(IEEE)和工程技术学会(IET)的文献资料,并提供了丰富可靠的IEEE term字典,可以大大提升论文的查全率和查准率,同时,在文献分析时也可以用来作为技术的本体来进行挖掘 。在本文中,我们分别检索IEEE term为“3G mobile communication” “4G mobile communication”“5G mobile communication” 的文献数据,最终分别得到3G—5G领域15414条、3957条和8562 条数据(数据下载时间为2018年12月18日)。

我们对关键词进行处理,首先分别统计出3G—5G各关键词的出现频次(分别存储在de_3g表、de_4g表、de_5g表中),然后进行关键词的合并(将3个表进行外连接得到 de_3-5g表,外连接即是将3个表中的关键词取并集),最后共得到3479个关键词在数据集中的分布状况(总 词 频 数 204481, 3G 词 频 数 124934,4G词频数27772,5G词频数51775)。 为了研究3G—5G的自我成长过程,采用了LLR算法(Log Likelihood Ratio,对数似然法)[10] 将3479个关键词分别划归到3G/4G/5G领域中。

LLR算法是文本分类算法的一种。 目前的文本分类算法都是从语料库得到一个词典(词典涵盖该语料库中所有出现的词语),并从待分类文档中提取出文档特征词映射到词典上形成向量空间(向量空间中的每一个向量都代表一个文档),通过计算向量空间中的各个向量之间的距离来测算各个文档的相似度,进而对文本进行分类或者聚类。 目前常用的文本分类算法有TF-IDF算法(Term Frequency–Inverse Document Frequency,词频-逆文本频率指数)、CHI算法、IG 算法 (Information Gain,信息 增 益)、MI算 法 (Mutual Information,互 信息)和LLR 算法等。 其中 TF-IDF算法削弱了在语料库中的高频词的重要程度;CHI对特征的权重值进行了规范,使得特征之间可以进行有效比较,但是这种比较在低频特征上不可靠[11] ;IG算法计算量较大且在低维空间表现不好;MI算法则过分放大了低频单词的重要程度[12] ;LLR算法则考虑了词的频度、集中度和分散度等多种统计测试指标[13] 。考虑到论文关键词和普通文本分类中频繁出现的词和很少出现的词的不同(如论文高频关键词很重要,而普通文本分类中频繁出现的词是要过滤掉的)以及计算成本,选用 LLR 算法来对3479个关键词进行领域划分。

文本分类算法不仅可以用于对文本分类,也可以根据其提取的文档特征词来对聚类命名。如引 文 可 视 化 分 析 软 件 CiteSpace 就 是利用 TF-IDF、LLR 和 MI这3 种算法来从施引文献的不同位置提取聚类标签。 其中 TF-IDF算法提取的聚类术语强调研究主流,LLR和 MI算法提取的聚类术语强调研究特点[14] 。本文则是利用LLR算法的原理对关键词进行分类,以消除绝对数量的差异,并将在多个领域出现的关键词划归到一个领域中去。 根据公式(1)可以算出每个关键词的期望频次,公式 (2)可以将每个 关 键 词 划 归 到 一 个 领 域 中 去,公 式(3)可以计算出每个关键词的LLR值。

比如:出现次数最多的关键词“多址通信(Multi-access communication)” 在 3G、4G、5G中的词频分别是3403次、295次、57次,由于1篇论文所标注的关键词不具有重复性,故某个关键词在一个领域中出现的最高频次就是这个领域的论文总数。 而3G、4G、5G 的论文数分别为15414 篇、3957 篇、8562 篇,则根据公式(1)可以算出“多址通信”在3G、4G、5G 中的期望频次:

LLR值越大则区分度越大,“多址通信”的LLR值为4029.05,说明相对4G 和5G 领域,其具有更大的可能性属于3G领域。

最后将处理好的数据导入 VOSviewer[15]中进行可视化分析,可以清晰得见在3G、4G、5G中的研究主题。


3

结果分析


3.1 面向技术升级的发文量分析


为了清晰地看出 3G—5G 领域的年发 文趋势并便于横向比较,我们对各领域的年发文量进行了标准化处理 (图 1)。 从图 1 可以看出,3G—5G 领域的发文起始年份分别为1990年、2002年和2006年,而5G 发文量快速增长却是在2013年。 2013年—2017年5G 领域的论文量 从 5 篇 快 速 增 长 到 2975 篇, 分 别 是2017年3G和4G领域发文量的8.72倍和6.57倍。 技术的升级造成了新代际领域论文的快速增长以及旧代际论文的快速衰减。

图1 3G—5G领域年发文量(已标准化)分布


3.2 面向技术升级的新知识概念的扩展


一个领域的技术升级过程是自我成长的过程,可以用知识概念的生长来反映。 此 处以关键词的增长来衡量其增长速度。 如3G领域中有3篇文章:论文1、论文2、论文3,其中论文1与论文2 发表在2017 年,论文3 发表在2018年;4G 领域中有2篇文章论文4与论文5,两篇论文都发表在2018年。 论文1包含关键词 A、B、C,论文2 包含关键词 A、C、D,论文3包含关键词 A、D、E,论文4包含关键词A、B、F,论文5包含关键词A、F、G。 则2017年3G 领域新知识概念有4个(A、B、C、D),2018年3G领域新知识概念有1个(E),2018年4G领域新知识概念有2个(F、G)。图2为其示意图。

图2 新增知识概念的示意图


图3展现了在3G—5G技术升级过程中新知识概念随年份的扩展情况。 如在3G 领域首次出现的知识概念是 “移动通信 (Mobile communication)” “ 宏 蜂 窝 网 络 (Macrocell networks)”等;在4G领域首次出现的知识概念是“激光稳定性 (Laser stability)”等;在 5G 领 域首次出现的知识概念是在2006年,仅有1个,为 “C# 语言 (C# languages)”,时隔 8 年,在2014年又再次新增3个,分别为 “无线电接入网(Radio access network)” “系统级设计和 分析(System level design and analysis)”和“信息交换(Information exchange)”。

从图3可以发现,3G 与4G 领域的新知识概念呈逐年减少态势,5G 领域达到稳定状态。而4G的出现导致3G 波峰的产生,5G 的出现却使得 3G 与 4G 的新知识概念进一步衰减。这表明技术的升级会带来一个领域知识概念的新陈代谢,进而延长该领域的生命周期。

图3 3G—5G技术升级过程中新知识概念的扩展图


3.3 面向技术升级的关键词分析


为了研究3G—5G技术升级过程中各阶段的研究主题情况,利用LLR算法将关键词分别划归到 3G—5G 领域中并导入VOSviewer做出了3G—5G 研究主题的时间线图(图4)。 图中节点的大小代表词频,节点越大,词频越大。纵向来看,从上到下分别代表了3G、4G、5G 的研究主题;横向来看,是研究主题的平均出现年份。 最右边的红色部分则代表最新的研究主题,如 “多 入 多 出 通 信 (MIMO  Communications)”和“频谱利用率(Spectral efficiency)”等是新研究点。

图4 3G—5G 研究主题的时间线图


从图4可以看出,在3G 领域中需要关注的是 “多 址通信(Multiaccess communication)”“下行链路 (Downlink)”“吞吐量 (Throughput)”等主 题; 在 4G 领 域中需要关注的是“带 宽(Bandwidth)”“无线通信(Wireless communication)”“多入多出技术(MIMO)”“正交频分复用技术(OFDM)”“长期演进技术(Long term evolution)”“无 线 网 络 (Wireless networks)” 等 主题,其中正交频分复用技术具有良好的抗干扰性能,是4G 的核心技术;在5G 领域中需要关注的是“干涉(Interference)”“信噪比(Signal to noise ratio)”等主题。 值得一提的是,云计算、机器人、人工智能、智能设备、智能家居也是其核心研究主题,此外也包含了大量对毫米波的研究。


3.4 面向技术升级的InvariableTerms分析


我们将LLR 值较小且词频较大的这一类研究主题称为Invariable Terms,它们代表了在技术更迭过程中一直传承的研究主题。 如“马尔可夫过程(96次)”“遗传算法(92次)”“人工神经 网 络 (78 次 )” 等 研 究 主 题 一 直 贯 穿 了3G—5G的技术更迭过程。 进一步观察发现这些研究主题大都和模型与算法相 关。 如表1所示。


表1 InvariableTerms(Top20,以词频排序)


4

结论


在技术升级过程中,当代际交替时,首先知识概念会在新代际出现增长,而在旧代际出现衰减,基于此,技术的升级延长了一个领域的生命周期。反之,也正是那些新知识概念的出现又反过来促进了一 个领域的技术升级。其次,在技术升级过程中,研究人员对某个领域的研究,更着重于随时代发展而出现的概念名词及技术方法,而对那些长盛不衰的研究主题则更侧重于理论与模型。

一个领域的生长必然会有增长、衰减与消亡,而技术升级过程中必然会出现技术方法的新陈代谢,最直接的体现形式就是各技术代际的发文量与新知识概念的出现。而基于知识概念的产生、生长和消亡的技术新陈代谢分析方法对寻找一个领域的知识传承路径具有重要作用。

当然,本研究也存在一定的局限性。虽然对技术升级过程中传承下来的关键词的特点进行了分析,但对消亡的关键词并没有进行分析,如技术升级导致的知识概念的消亡是否形成类团,某一研究主题消亡的原因和背后机理都值得深入研究。


作者简介

王贤文(通讯作者),教授,研究方向为Altmetrics,科学学与科技管理

田文灿,硕士研究生,研究方向为科学计量学

胡志刚,副教授,研究方向为科学学,科学计量学


参考文献




*原文载于《信息资源管理学报》2019年第2期4-10页,欢迎个人转发,公众号转载请联系后台。


制版编辑 | 王小燕



论文荐读  2019年第1期 | 情报学与情报工作发展论坛(2018)纪要


论文荐读  2019年第1期 | 论情报学与情报工作“智慧”发展的几个问题


论文荐读  2018年第4期 | 全文本文献计量分析学术沙龙综述


论文荐读  2018年第4期 | 基于可穿戴设备的医疗健康数据生命周期管理与服务研究


论文荐读  2018年第4期 | 健康信息学研究:起源、现状与未来


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存