王路燕丨大数据时代政府数据资产管理

查看原文

其他

王路燕丨大数据时代政府数据资产管理

2017-08-01 电子政务智库

2017政务大数据治理与创新邀请函

会议预告

8月2日丨2017中国（舟山）大数据科技创新高端研讨会

2017年7月26日下午，“2017政务数据治理与创新高端研讨会”在北京梅地亚中心多功能厅隆重召开。本次研讨会由中国信息通信研究院、中国社科院信息化研究中心、国脉数据研究院联合主办。

国脉海洋常务副总经理王路燕出席会议并发布了《国脉数据基因3.0产品》，这也是本次研讨会的一大亮点，她提出数据基因3.0能够实现资源匹配、事项标准化、考核评估扥功能，同时通过配置事实目录，更新理想目录，促进政务数据治理与创新。

▲ 国脉海洋常务副总经理王路燕

以下是会议现场发言实录：

尊敬的各位来宾下午好，在这里分享一下国脉政府数据资产管理的经验，刚才也听了多位专家关于大数据具体应用的观点，数据基因产品作为底层基础性工作，主要做信息资源梳理、规范化等工作。

先解释下“数据基因”名字的由来。该词来源于生物上的基因，生物学中的基因是由四个碱基构成，这些碱基可以形成复杂的DNA，而数据基因是由0和1构成，通过不同组合，可以表达很多不同的信息，这就是生物基因与数据基因的共同之处。

数据基因，一方面表达了数据的具体特性，另一方面描述了不同数据之间的关联以及从旧数据到新数据的进化。

在数据基因产品从1.0（2017年2月15日正式发布）到3.0的发展过程中，国家不断推出新的政策文件，并开展了政务信息资源目录国家试点工作。我们紧紧围绕这些变化并结合实践工作来完善数据基因产品。数据基因产品从1.0到2.0只用了短短两个月，而3.0 是隔了半年才推出的，我们充分结合了各地的实践工作，该产品不是仅仅提出概念化的东西，还有各地经验的汇总。

一、三个版本发展历程

· 数据基因1.0：资源模板、资产登记。我们首次提出“资源模板”。

· 数据基因2.0：资产普查、数据元标准化、资产地图、公共数据字段池、数据模型。

· 数据基因3.0：数据元标注、事项梳理、数据治理、理想目录与事实目录。“理想目录与事实目录”是数据基因3.0的新特点。

二、应用案例

1.淮安市信息资源梳理

这是第一个落地应用的数据基因案例。借助信息资源模板，在一个月内快速梳理出淮安全市82个部门的信息资源，通过数据基因系统，由各部门进行核实、确认，快速建立全市信息资源体系。

2.浙江省全口径公共数据资源梳理

这也叫“公共数据资源梳理”，因为它还包括企事业单位，并非只包括政府单位，其范围很大。依托17年电子政务项目预审的工作，开展全省项目独立预审单位的信息系统普查、“全省最多跑一次”事项普查（责任清单、权力清单）、信息系统实有数据普查等，同时借助系统开展事项标准、数据标准等工作。

3.贵州省数据资产登记

根据《贵州省政府数据资产管理登记暂行办法》，开展贵州数据资产登记工作，对信息系统、硬件资产、软件资产、数据资产（围绕管理、保存、存储等角度）进行梳理，同时建立系统、硬件、软件、数据之间的关系图谱。除此之外，还有海南、四川、广东、宁夏等省。

三、数据基因3.0新功能和新价值

1.资源匹配

这也是数据基因3.0不同于数据基因2.0的地方。其应用主要包括模板匹配、数据元标注、标签化、预设模型等四个方面。

（1）模板匹配

系统上拥有丰富的模板资源，现在有省、市级部门各70个，标准化数据元10000项，核心数据集2000个。基于这些模板资源，部门登录后，系统可进行自定匹配，推送本部门的资源模板。用户也可以采用订阅模式，订阅某类资源模板。

借助关联导入功能，以任何一个结点为单位，能够建立数据元、数据集、业务事项之间的管理，并能以任何一个为单位进行关联。

（2）数据元标注

从业务、系统抽取过来的数据项，可进行匹配设置，根据匹配规则在数据元模板中依据中英文名称进行快速精准匹配。完全匹配上的可直接填充模板中的数据元相关内容，明确数据元数据类型、长度、精度等描述。具体包括以下几点：

一是规则制定。模板资源中拥有数据元近20000条，采集了公安、卫生、交通、民政等领域的数据元标准。

二是精准匹配。对业务、系统产生的数据元进行匹配设置，可快速在模板库中找到匹配的数据元。

三是快速填充。对数据元的中文名称、数据类型、数据长度等进行描述并快速填充。

（3）标签化

目前在做政务信息资源梳理时，最困难的是数据分级分类问题，国家政务信息资源分类为国家基础信息资源、主题政务信息资源、部门政务信息资源。小的数据元可以做标签，未来做某一专题时，可以在这些标签基础上设计主题，如输入“教育”，关于此专题的内容就可以全部检索出来。

可以从三个方面进行标签化：

一是按照业务条线进行标签化，包括教育、科技、司法、农业、地税、海渔、工商、旅游、综合治理等业务条线；

二是按照数据领域进行标签化，包括经济建设、环境资源、城市建设、道路交通、教育科技、文化休闲、民生服务、机构团体等数据领域；

三是按照资源主题进行标签化，包括人口、法人、空间地理、信用、证照等资源主题。

（4）预设模型

数据基因3.0产品预设模型有人口库模型和法人库模型。

· 人口库模型：围绕人的生命周期，预设人口库信息资源模型，涵盖人的基本信息、学籍信息、婚姻信息、死亡信息、资产信息、残疾信息、住宿信息、宗教信息、生活信息、参保信息、文化信息、交通信息等。

· 法人库模型：围绕法人的生命周期，涵盖法人基本信息、财务信息、资质信息、法人及股东信息、税务信息、业务信息、荣誉信息、监管信息等。

2.事项标准化

做事项标准化的原因是为了要把事项做具体，每个数据项权威来源部门是哪里？表格数据项是什么？字段来源是哪里？要将每一事项追踪到源部门。

实现事项标准化，首先需要部门、事项规范性编码，其次要做到证照、批文的规范化、材料的规范化等，最后是确认数据源部门。我们提供基础字段池，如人口、法人的权威字段，能够做到所有的材料规范化并确认材料来源部门等。

3.数据治理

数据基因3.0产品提供数据治理功能，主要体现在考核评估、诊断、项目管理三个方面。

（1）考核评估

资源梳理是一个长期过程，对共享方式、置机方式（前置机方式、EXCEL方式等）、报送范围、指标设计等都有要求。数据基因系统提供数据治理模块，针对不同地方实际需求，设计数据治理评估考核体系，通过人工与系统评估相结合的模式，对各部门信息资源情况进行考核，从数据管理的不同维度出发，促进数据资源管理可持续发展。

（2）诊断

审查信息系统，对字段设置、租用机房、系统未上云、僵尸系统（依据适用范围而定）、数据未归集系统（数据点对点共享）、孤岛系统等进行诊断。根据诊断规则的设定，系统自动对所有部门信息系统进行诊断，并给出诊断意见，同时，诊断意见可以为数据管理部门在进行信息化新建项目、运维项目审批时，提供参考性意见。

（3）项目管理

项目管理主要包括两类：一是新建项目，需提供新建项目的数据说明、新增数据等。二是延续项目，要关联相对应的应用系统名称，读取该应用系统的诊断报告，诊断该项目目前不适合延续或再提供运维费用（设置考核指标）。

理想目录是按照部门的职能要求应该具有的数据，事实目录是最终体现在共享交换平台上的数据，事实目录是基于理想目录对接过来的，二者是相互补充、相互融合的过程。数据字段是根据理想目录进行勾选并细化，最终会出现理想目录与事实目录的对比表，通过该表格，可以看出事实目录中没有的理想目录，主动找出原因。

四、下一步计划

一是建设数据元服务平台，整合现有的模板、标准化的资源，由各个用户参与数据元标准化工作；

二是开放知识图谱研究工作，目前在研究探讨中；

三是开展多领域应用，研发应用不同行业的版本。

五、优势

国脉拥有“咨询+产品”的优势，在信息化咨询服务中可以提供最好的产品，在产品中可以提供最好的咨询服务。

热点

后台回复“指标”即可获取“2017政府网站绩效评估指标（征求意见稿）”

产品

介绍

政务大数据基因系统是按照国家、行业和地方标准，通过政务数据元、元数据标准化和数据模板化实现数据规范编辑、智能管理、关联应用和共享开放，以提升全域或行业的数据资源活化和管理能级。它是实现数据跨系统共享交换、创新应用的底层逻辑和关键规则体系，是解决（大）数据混杂、提升数据质量、促进数据创新应用的前提，也是集成信息资源目录体系、交换体系和开放体系三合一的管理平台，为优化政务数据体系、探索数据关系、驱动数据服务奠定基础。是城市和行业数据中心的必备管理工具，实现从管网络、系统到管用数据的跃迁。

国脉数据基因DNA产品宣传片

https://v.qq.com/txp/iframe/player.html?vid=c0395sfioye&width=500&height=375&auto=0

电子政务智库 ∣come2egov

客服QQ：3312614261

客服微信：echinagov-GM

合作咨询：13875718370

长按，识别二维码，加关注

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

半年狂赚63亿了，微众银行董事长，还要卷员工

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价