查看原文
其他

知网产品| CNKI数值型数据建库系统

广东知网 2022-05-18


人工智能唯一的两个资源,一个是数据,一个是知识。还有确定性信息、完全信息、静态的、单任务和有限领域。

——张钹院士: 走向真正的人工智能

在当今信息技术快速发展的时代,各级政府、行政部门及相关研究人员逐渐意识到数据资产的重要性,然而在实践工作的过程中,数据分散、收集困难、数据结构差异性大、数据不互通、标准不统一等一些列问题困扰着使用者对数据的提取和应用,数据治理的需求日益突出。


数据治理中的突出问题


01

半结构化数据治理难题


02

结构化数据缺乏统一标准


03

缺乏面向业务的指标决策体系

各业务部门缺乏针对不同业务需求的指标决策体系与管理机制,造成指标数据利用不足、业务精细化程度低下等问题。



系统介绍


CNKI数值型数据建库系统基于中国知网自身的世界知识大数据与大数据融合技术面向全国各省、地市统计局/国家调查队、区县统计局,以及对数据加工、数据指标管理有需求的相地方政府、科研院所、高校、行业协会、企业等,提供从源数据汇聚、数据碎片化加工、数据预处理、指标分析和体系构建,数值型数据专题库形成,到业务服务、场景应用的全流程一体化解决方案。

系统提供多源异构数据治理、指标构建工具,实现接口、加工等多来源数据接入,结构、半结构化数据加工指标化、标准化,支持业务指标体系分析和动态构建;同时面向不用应用领域,提供“数据+软件”专题打包服务,支持多方式数据查询和业务应用。



系统亮点


1.数据治理五步走


① 表格数据碎片化加工

针对异构表格数据进行抽取和标引,建立指标加工标引模板,通过系统自动识别技术,将excel表格数据碎片化,处理成结构化指标本体和相应维度数据,提取入库,实现半结构化数据指标化。



数据规范化预处理

针对数据不规范、统计标准不统一的数据,自动识别并处理字段进行提取、拆分,根据业务需求将字段重新整合或运算,统一数据标准,实现数据和数据结构规范。


③ 体系标准化管理

针对体系化的数据深度加工清洗,构建标准词表进一步处理成为规范数据进行存储和管理。同时,可以通过人工规范补充的方式不断扩充词表,实现系统自动识别和标准化,解决多源指标规范问题。


④ 动态业务体系构建

将分散的数据进行整合,根据业务需求形成指标体系并进行集中管理,面向特定业务动态构建和管理相关指标体系,支撑业务查询,同时通过构建指标体系,为基于数据的业务创新提供可能。



⑤ 指标数据映射、算法配置

将体系中的各项指标和数据进行关联匹配,支持批量和单独映射,同时对于含义指标提供函数、多指标聚合、SQL多种算法配置方式,多维度对指标进行计算,实现数据多样应用,挖掘数据价值。


2.多方式数据检索

支持多种检索方式:简单检索、高级检索、指标检索、多维度检索、模板检索等,满足各种查询需求。检索结果支持表格、图表等多种呈现形式和一键导出,同时提供简单统计运算,实现数据价值。










3.流程化、系统化管理

系统提供友好的可视化操作面板工具,流程化、系统化自主管理,操作方便高效。业务实现流程:①表格数据导入;②指标数值抽取、自动识别;③字段提取入库;④处理规则、函数构建;⑤数据预处理;⑥领域词表、标准构建;⑦自动化指标规范、人工校改;⑧业务指标体系构建;⑨指标数据映射、指标算法配置;⑩数据检索、应用。



应用案例


案例1:江西农业科技服务云平台

江西省农科院在打造大数据智库平台过程中数据治理问题成为最大困扰。农科院存在海量表格数据资源近5万余张,无法加以利用,急需数据加工和整合。江西农业科技服务云平台基于建库系统进行底层表格数据治理和资源整合,实现表格数据碎片化加工,形成结构化指标本体,构建数据标准,建立规范化的数据指标管理体系,服务海量农业知识和数据检索,同时根据治理后的数据进一步支撑电子沙盘、智能报告等业务应用,辅助农业产业发展态势研判和政府决策。



案例2:陕西省统计局综合数据平台

陕西省统计局存有大量从1997至今的统计年鉴、行业年鉴数据,其中大部分以EXCEL表格形式存放,约2万张表格、40万数据,缺乏治理并且难以加以应用,影响部门间数据共享和调用,影响工作效率。陕西省统计局综合数据平台基于CNKI数值型数据建库系统的核心技术和功能,搭建集表格数据加工、业务指标体系构建、数据检索于一体的工具平台和治理服务。实现近十年数据碎片化、指标化,建立指标词典和规范体系,形成规范化数据,同时根据业务需求建立多级指标体系,提供多方式数据检索和共享。






文章来源:CNKI大数据  本期编辑:冯裕炳 审核:王燕娜



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存