学术大数据技术在科技管理过程中的应用
The following article is from 大数据期刊 Author 大数据期刊
学术大数据技术在科技管理过程中的应用
梁英1, 张伟1,2, 余知栋1,2, 史红周1
1 中国科学院计算技术研究所,北京 100190
2 中国科学院大学,北京 100190
摘要:学术大数据逐步成为提升科技管理水平的重要数据基础。通过调研国内外科技管理信息化的发展现状和特点,总结了学术大数据的发展及应用,分析了学术大数据在科技管理过程应用中面临的问题。结合我国科技管理的应用需求,设计了基于学术大数据的科技管理应用框架。基于知识图谱的学者画像构建技术和基于网络表示学习的相似作者推荐技术,利用多源异构的学术大数据,进行科研布局和资源统筹辅助决策以及科技管理过程中的专家精准推荐和成果评估评价,为提高科技管理效率提供了有效的技术支撑。
关键词:学术大数据 ; 科技管理 ; 知识图谱 ; 网络表示学习 ; 专家推荐
论文引用格式:
梁英, 张伟, 余知栋, 史红周. 学术大数据技术在科技管理过程中的应用. 大数据[J], 2019, 5(5):3-15
LIANG Y, ZHANG W, YU Z D, SHI H Z.SApplications of academic big data in the process of science and technology management. Big Data Research[J], 2019, 5(5):3-15
1 引言
近年来,我国研究与试验发展(R&D)经费投入增速加快,据《2018年国民经济和社会发展统计公报》显示,2018年研究与试验发展经费支出为19 657亿元,比2017年增加11.6%,与国内生产总值之比为0.021 8。国家科技研发经费对各类科技计划的投入逐年增大,但也存在着重复、分散、封闭、低效等现象以及多头申报项目、资源配置“碎片化”等问题。如何有效管理并最大限度地发挥科技对国民经济和社会发展的巨大促进作用,是当前科技管理面临的重大挑战。为了加强顶层设计,国务院印发了《关于深化中央财政科技计划(专项、基金等)管理改革的方案》(国发〔2014〕64号)文件,通过“统一的信息系统,对科技计划(专项、基金等)的需求征集、指南发布、项目申报、立项和预算安排、监督检查、结题验收等全过程进行信息管理”。在大数据时代,学术大数据不仅是学术信息传递、学术观点交流和科研成果产出的结果,同时,学术大数据也正逐步成为提升科技管理水平的重要数据基础,在科技管理过程中发挥着越来越重要的作用。因此,将大数据的新技术、新工具和新方法运用到科技管理过程中,加强科技管理过程中的数据资源集成分析处理能力,为科研布局和科技决策提供有力支撑,发挥大数据在决策支持、发展战略研究、科技成果产业化等方面的积极作用,已成为应对上述挑战的重要方法。很多国家在积极探索如何将新技术和新方法应用到科技管理信息化建设中,发挥其在决策支持以及科技成果产业化等方面的作用。美国的科技项目被纳入联邦政府进行统一管理,具有代表性的科技项目管理信息系统包括联邦政府的统一项目管理平台 Grants.gov、国立卫生研究院的eRA系统以及国家科学基金会的FastLane系统。韩国的新税务综合系统(NTIS)通过门户实现国家R&D事业的有效管理,在参与评估活动中,最大化利用已有信息,将重复投资的可能性降到最低。我国从国家到地方,建设了从科研立项到科技成果转化全周期的科技管理信息系统。当前,我国科技管理部门正根据国家政务资源集成共享要求,采用云计算、大数据等技术对各级各类科技资源进行整合共享,以提升科技资源的统筹水平,促进科技创新发展。科技管理和相关科研活动产生的数据存量大、增速快。据国际科学、技术和医学出版商协会(International Association of Scientific,Technical and Medical Publisher,STM)发布的报告显示,当前全球英文期刊发文量每年约为300万篇, SCI和EI数据库共收录期刊论文260万篇,其中,仅我国论文就有58.9万篇,居世界第二,我国2018年专利申请量为154.2万件,授权量为43.2万件,居世界第1位。学术大数据资源不仅数量巨大,且来源广、复杂性高,具有多元异构的特点。虽然公开发表的学术资源文献可以从传统搜索引擎、Google Scholar等学术搜索引擎、开放存取(open access,OA)期刊站点或中国知网、万方等学术数据库中查询,但目前还没有针对学术领域被广泛认可的覆盖论文、专利、项目等多种不同类型科研行为的多源科研数据收集整合方案。当前科学技术研究日益深入,学科分类和研究领域日益细化,特别是由于科学研究的高度专业性和创新性,各类专家在科技管理过程中发挥着重要作用,选择合适的专家进行专业化的科技管理决策,已成为科技管理过程中的关键环节。目前,全球范围内的研究人员总数已达710万,且正以每年3%~4%的速度持续增长。我国是2018年研究人员最多的国家,同时,各类专家涉及的学科领域众多、专家间关系网络复杂,如何从众多研究人员中高效率、高精度、多维度地选择推荐专家,面临着诸多挑战。针对这一问题,本文开展基于学术大数据的科技管理应用框架及关键技术研究,充分发挥学术大数据的价值,为科研布局、资源统筹提供决策支持,同时,为科技管理过程中的科研选题、同行评审评议、科技信用评价、项目过程管理等的科技管理过程提供技术支撑手段。
2 研究现状
2.1 学术大数据发展及应用
2.2 网络表示学习的发展和应用
2.3 学术评价指标的研究与应用
3 框架设计
3.1 设计目标
3.2 应用框架
● 应用服务:为各类用户提供服务,为科研布局、资源统筹等宏观决策提供支持,同时为指南制定、公平公正评审、科研立项等科研管理实施过程提供支撑。● 科技管理过程:为科技管理过程提供全周期支撑,在科研管理过程备选征集、申报受理、入库凝练、出库立项、实施执行、监督检查、项目验收、成果转化的全周期中,提供入库评审、立项评审、执行监督评审、验收评审及成果鉴定评估等过程管理的支撑。● 画像刻画:针对学者领域多样、差异较大的特征,对学者进行精准画像构建,提取领域内高水平专家,进行专家全方位评估和多维度排名,建立精准画像库。● 数据整合:整合项目库、专家库、成果库和外部数据等多源异构的数据,基于数据规范、元数据,构建统一的异构资源集成框架。● 资源收集:收集科研人员和科技专家的基本数据与相关联的文本数据(论文、专利等),并进行融合、实时推送与更新。学术大数据科技管理应用框架中的“科技管理过程”涉及各种业务环节,这些业务环节主要依据国发〔2014〕64号《关于深化中央财政科技计划(专项、基金等)管理改革的方案》。该框架中“应用服务”的目标是让合适的人做合适的事,利用技术手段辅助支撑科技管理过程的业务流程,比如通过热点挖掘与趋势预测应用服务辅助指南的征集过程,利用专家推荐技术辅助科技管理过程各阶段的评审专家的遴选等。
4 关键技术
4.1 多源异构学术大数据收集与整合
学术数据的来源丰富,为了完整收集所有可能需要的学术数据,本文采用多种方法收集各类数据源中的学术信息,并应用数据整合方案进行多源异构数据的规范,以供进一步的应用。通过万方、知网、全国报刊索引等数据库进行文献信息的检索,可以获取期刊论文、会议论文、科技报告以及学位论文等文献数据。每条文献数据包含文献标题、摘要、关键词、分类号、发表日期、作者及单位信息等必要或可选信息,同时期刊论文和会议论文也包含各自期刊与会议的具体信息。部分研究尝试对文献PDF数据进行元数据抽取,从而获取规格化的文献信息。对于项目和专家信息,可以利用爬虫技术,从各级科技管理部门官网、国家科技管理信息系统公共服务平台、国家自然科学基金委员会官网中获取公开的项目指南、立项信息、项目成果报告简介、专家信息等。由于2015年及之前的指南文件组织形式并不规范,因此对于爬取的文件仍然需要进行一定的数据清洗和整理,例如利用TF-IDF文本特征提取方法获得具备足够信息量的关键词句信息,并通过词嵌入方法进行特征值方面的计算与处理。学术社交网站中的信息也可供收集和采用。参考文献利用SCHOLAT学者网获取了学者之间的社交互动关系的数据,从而进一步分析了学者之间的信任度与研究兴趣;同时,SCHOLAT学者网中学者用户也会提供课题组的介绍以及成员信息,这可作为进一步分析所用的数据信息。在科技计划管理系统中设有专家库,包括专家教育经历、工作经历、研究内容、研究成果、职称等信息,同时,科技计划管理系统中还存储了各类科技计划项目的申请文档、过程文档等详细资料,这些数据都为有效评估专家的研究领域与学术水平提供了一定的基础。通过多种数据收集手段,可以收集海量的学术数据,由于数据来源各不相同,整体数据呈异构状态,因此还需要进一步的数据规范化整合。很多研究提出了不同的异源实体整合方法,如科学数据管理系统MOMIS基于基本的通用模型,针对不同结构的数据配置不同的装饰器,进行统一管理;HCONE-Merge方法则对每个来源的实体增加一个WordNet中间层,并进行合并,整合成为统一的数据实体。中国科学院计算技术研究所研发的科学计划应用数据集成系统(science plan applying data integration system, SPADIS)提出了一种多源异构数据收集、接入、集成的方法和框架。依据科技管理标准规范,制定数据项的名称与格式,将这些条目组成元数据。根据各个数据项之间的逻辑关系进行聚合,将所有对象与元数据构成一个树模型,针对不同的数据源(如利用各种方式在网络中采集的科研数据以及现有的MySQL、Oracle、SQL Server等数据库引擎保存的不同格式的科研项目库、专家库等遗留数据资源)进行封装整合。该系统通过对元数据进行相应的剪枝操作,生成特定的树模型,并配置元数据与数据条目之间的映射关系,从而做到对异构异源数据的规范与管理。通过数据操作接口,利用XML格式进行树模型的最终整合存储,支持动态配置数据库或外部资源库等数据对象。图2为SPADIS中学术大数据的收集、存储与整合的架构。
4.2 知识图谱与学者画像刻画
图数据相比关系型数据更能刻画出一些关系,本文使用Neo4j图数据库对学术网络数据构建知识图谱。学术网络中的关系包括作者合作关系、作者发表论文关系、论文出版与期刊关系、作者所在机构关系等。图3展示了Neo4j数据库中图数据库实体属性和关系可视化示例,可以看出,同一作者可以属于不同的作者机构,不同的作者之间存在合作关系。不同的关系经过图数据库得到了显式的表达。相比关系型数据库,图数据库的表现能力更强,可以挖掘出数据中更深层次的信息。
4.3 基于网络表示学习的专家推荐
本文使用网络表示学习解决相似作者搜索的问题。如图5所示,首先使用网络表示学习将庞大的学术网络中的每个节点转化为实数向量表示。这些向量里蕴含了学者在网络中的结构特征,同时包含了网络中节点的数字和文字形式的特征。获得这些特征向量之后,结合学者研究领域匹配结果获取到的部分科研专家,可以从所有种子学者中筛选候选学者,并直接通过比较学者向量的余弦相似度获得相似作者集合。通过这种途径,可以快速寻找到相似专家,并获得最终需要推荐的专家列表。
5 预期应用
5.1 科研布局和资源统筹辅助决策
5.2 科技管理过程专家精准推荐
在科技管理过程中,科研选题(指南制定)、评审立项、执行检查、验收评估、成果鉴定等环节都需要选择适合的专家进行决策。基于学术大数据的各类专家精准画像将有助于在科技管理过程中选出适合的专家。结合科技管理信息系统中的专家推荐功能,系统可以智能化地分析管理需求,并结合管理需求,从专家学术水平、资历经验、专家与评审项目领域匹配、学术道德信用、智能回避原则等多维度选出适合的专家,最大可能地减少人为因素,提升科技管理过程的科学性和公平性。
5.3 科技管理过程成果评估评价
6 结束语
作者简介
梁英(1962- ),女,中国科学院计算技术研究所高级工程师,主要研究方向为大数据分析挖掘、网络内容安全和隐私保护。
张伟(1993- ),男,中国科学院计算技术研究所硕士生,主要研究方向为网络表示学习、学术大数据。
余知栋(1996- ),男,中国科学院计算技术研究所硕士生,主要研究方向为物端协同计算、大数据技术。
史红周(1971- ),男,中国科学院计算技术研究所高级工程师,主要研究方向为物端协同计算、物联网安全、大数据技术。
(欢迎大家加入数据工匠知识星球获取更多资讯。)
联系我们
扫描二维码关注我们
微信:DaasCai
邮箱:ccjiu@163.com
QQ:2286075659
热门文章
什么是数字孪生?已有哪些应用?终于有人讲明白了
智造“基石”—— 解码工业物联网、大数据与云计算,发力“新基建”
哪些数据库是行存储?哪些是列存储?有什么区别?
数据库有哪些分类?应该怎样选择?终于有人讲明白了
我们的使命:发展数据治理行业、普及数据治理知识、改变企业数据管理现状、提高企业数据质量、推动企业走进大数据时代。
我们的愿景:打造数据治理专家、数据治理平台、数据治理生态圈。
我们的价值观:凝聚行业力量、打造数据治理全链条平台、改变数据治理生态圈。
了解更多精彩内容
长按,识别二维码,关注我们吧!
数据工匠俱乐部
微信号:zgsjgjjlb
专注数据治理,推动大数据发展。