《非结构化数据管理与企业数字化转型》圆桌论坛:从意识唤醒到标准建设释放非结构化数据能量
非结构化数据应用研讨会近日在“2021全国大数据标准化工作会议暨全国信标委大数据标准工作组第八次全会”上举行。会议详细解读了国内首个非结构化数据团体标准——《非结构化数据应用能力分级要求》,《分级要求》是国内非结构化数据标准建设工作迈出的重要一步。
会议上,中国电子技术标准化研究院信息化研究室主任陈亚军、中国人民大学信息资源管理学院师资博士后杨建梁、鸿翼CTO罗永秀、齐鲁药业集团流程与信息化部董总监、国核电力设计研究院主任工程师张洪伟进行了主题为《非结构化数据管理与企业数字化转型》的圆桌论坛,就“非结构化数据内涵?”,“非结构化数据管理怎么用”,“非结构化数据管理如何标准化?”等问题展开了深入的讨论,产生了很多犀利的观点。
陈亚军:非结构化数据产生于人的活动且服务于人,围绕着人类转,但却能帮助避免因人的个体差异而产生的不一致性。
杨建梁:非结构化数据是人类社会的一个直观的表示、直观的流程,反映在机构中它也是一个机构、一个团体记忆的过程。
罗永秀:非结构化数据让人又爱又恨。它具有内容的完整性,极其稳定,蕴含着巨大的能量,但同时又因为颗粒度太大、认知度低,缺乏整体性,让它的管理难度非常之大。
张洪伟:计算机是我们处理数据的一种手段,最终还是要回到由非结构化数据构成的这个现实的世界,这种方式能让我们工作效率更高、更轻松。
董总监:非结构化数据是连接这个世界的最有效的、表达的最好的一种手段。数字化转型对企业而言不是一个要不要去实现的一个目标,而是衡量一个企业具不具备持续发展的一种能力。
罗永秀认为可以把非结构化数据就理解成广义的电子文件,共包含了文档类、图片类,音视频类,设计类四类文件。
罗永秀用“让人又爱又恨”来形容非结构化数据。
他说:具有很多非常优美的特质令人爱它。
一是内容完整性。结构化的数据不能描述真正的一个人或者一个事件或者一个项目或者一个物体,他没有这个能力,它必须要借助于比如说表单应用系统,但是任何一个电子文件它一定是完整地准确地描述了某个事物。
二是稳定性。Word文档可编辑的稳定性都比表格里面的数据高很多,不可编辑 OFD或者PDF稳定性就更强了。
三是能量大。我们到处可见各种形态的电子文件,80%的时间都在接触各式各样的、各种形态的过程的体系的成果的各个阶段的电子文件,这说明它能量真的很大。
他同时认为,非结构化数据也令人生恨。一是它的颗粒太大了,不像结构化数据是一个细颗粒度的,颗粒大就不爱交朋友,不愿意跟人家建立连接。结构化数据通过一个表就可以建立对象之间的关联,还可以去计算。但是非结构化数据因为颗粒太大了,它很难去建立这个连接。所以非结构化数据现在需要花很大的精力将其结构化,要借助于结构化的手段,让他更容易被关联。
二是不争气。企业的数据80%为非结构化数据,我们每日80%的时间是在接触非结构化数据,数据价值的挖掘模型的生成80%来源于我们的非结构化数据,但是看看我们的行业是什么现状?在设计工程行业,西南区域去年有差不多20多家企业核心的设计文件被勒索病毒软件勒索掉,这还怎么谈非结构化数据的管理?非结构化数据在市场上认知度太低,我觉得这也是我们需要建立标准的一个最关键原因。
杨建梁表示:根据现在国内外对于非结构化数据的定义,简单可以归结,不能用二维表的逻辑来表示的,就属于非结构数据。
他认为理解非结构化数据的内涵特征之一,业务的凭证性或者凭证性的记录,是在人们日常的生活、业务流转过程中所形成的一切的信息,这个信息不一定非得要用二维表逻辑来处理。第二,非结构化数据都有一些语义性信息或者连续性信息。典型的例如在日常形成的一些报告、公文、视频,它都有语义性、故事性、全面性的特点。
董总监表示:无论结构化也好,非结构化也好,都是人类认知世界,记录世界,表达世界的一种形式,区别在于是两种思维的表现。结构化数据,其实是计算机思维一个典型的转化,是有了计算机应用之后,人们为了去连接计算机,为了让世界连接计算机,设计的一个结构化的东西,要不然计算机没法处理。但是我们发现连接计算机并不是目的,人类是想通过计算机连接更多的人,所以最终非结构化数据才是连接世界最有效的、表达最好的一种手段。
董总监说:因为是两种不同的思维,所以无论怎样结构化,也只能把已知的东西进行思维模式化,但是未知的领域就没有模式,人的思维也是没有办法结构化的。举例:同事说你笑得很灿烂,你用结构化来表达一下?你怎么结构化能够形容那一刻的状态是笑得很灿烂?他的多巴胺分泌多少?还是说这一刻的皱纹是起了几道?结构化和非结构化在人和人、人和机器、人和物体之间的交流过程当中是相生相伴的,两种辅助手段缺一不可。
张洪伟:实际上企业在应用非结构化数据的时候,应该把它理解为一个人文的概念,非结构化数据有很丰富的内容,格式上也并非严格按照表来存储。在使用的过程中,是把它的一些关键的信息用结构化的形式提取出来,做一些联想关联,最终还是要回到非结构化。比如说图纸,哪怕是用的三维设计软件做的三维模型,它还是非结构化的,这是一个过程,我们是用计算机作为一个手段,最终还是要回到我们的世界,但这样的手段能让我们工作效率更高。
罗永秀:对于企业群体的帮助就是方便找文件。不管是售前、销售、生产还是技术支持,不会的问题一搜就找到,让非结构化数据在业务过程能用起来,为我赋能,加速业务的工作的效率,我觉得这是对一般用户最大的作用。
对于IT管理者来说,数据的80%是非结构化数据,如果让这些关键的数据游离在不同的业务系统里面,如果时不时哪台文件服务器被勒索了,哪个文件被泄露了,想找文件但部门之间没有打通……这些问题是与我们整个IT建设相关的。所以对IT信息管理者来说,建设一个统一的非结构化数据管理平台,是国内所有企业必须要去思考,而且要尽快去行动的一个方向。
第三个群体是安全和合规人员,制药行业有一个强合规要求,药品如果要上市,你如果不满足GMP的质量要求是不能上市。国企央企我们有安全管理员,如果不对文件进行一个准确的定义,流转没有做到根据密级挂钩,安全管理员就失职了,所以不管是安全人员还是管理人员,也必须要去做非结构化数据的建设。
对于业务管理员来说,因为每个业务实际上都是有管理员,比如我是销售运营中心的一个管理者,我的职责就要让所有的销售都知道我这个产品怎么卖、用什么样的话术去卖、产品具有哪些特质和不足的地方,这就需要构建整个企业的一个非结构化数据的知识库。
最后对企业的高层来说,企业的经营,一定会遵循降本、增效、提质的规律要求,这都是跟非结构化数据有关的。
所以对于企业组织来说,这5类群体都是需要对非结构化数据的管理和应用进行一个全方位的建设,意义是非常巨大的。
企业的核心竞争力是在于规模化,100个人能不能明天就变成200个人,后天就变成1000个人,规模化是需要很多的标准化,通过标准化去赋能扩张,这里面非结构化数据建设起到了一个关键的作用。
陈亚军:实际上非结构化数据是在人的活动中产生且服务于人,也比较贴近于人,都是围绕着人类转,但是如果整个业务都是特别的依赖于人,很多事情就会耽搁在人与人的交流上。同样一个事情,有可能我拿着相同的材料今天去做,碰到心情不太好的人,这个事情就办不成,明天他恢复了,这事就完成了。如果我们用上了非结构化数据就能够避免这种不一致性。
杨建梁:非结构化数据管理对于企业作用其实是一个很重要的问题。我对文件档案相对要熟悉一些,文件的管理本质上是对一个公司或者一个机构业务流程的一个管控。信息集群或者数据集群在机构内,其实更直观地表现为文件及权限。一文一事、一事一办,是大多数机构的典型情况,在某些比较敏感的领域,尤其像核电领域,每进行一个流程,每办一件事都是有文件把控的,文件签了这个流程才能走得下去。文件就是非结构化数据的一个管理对象,非结构化数据管理的机制做得好,流程定的合规,对于文件的管理更有效,本质上就是对流程的管理是有效的。
文件档案的管理如果做得好可以带来很大的便利。比如现在很多机构尤其是央企,很头疼的一件事就是审计,每次审计的部门一来从上到下来来回回几十趟,经常是几个月时间就没有了。但是审计部门的人其实很重要的部分就是查文件查档案,一个合同的时间、签署,双方是否合规?是否符合审计规则?是否合法?这时如果文件或者是非结构化数据管理工作做得好的话,完全可以从数据库或者是我们的内容管理平台上把相关的信息拿出来,这样的话就减少了大量的查档、查文件的过程,效率得到了极大提升。
非结构化数据是我们人类社会的一个直观的表示、直观的流程,其实反映在机构中它也是一个机构、一个团体的记忆的过程。经过几十年之后,当我们再想看看企业成立之初那种精神,我们经历过的事情,从中吸取一些精神力量的时候,我们可以通过非结构化数据来找到,前提是我们非结构化数据做得好且管理的好,否则我们也就失去了一个情怀,失去了我们的文化。
董总监:数字化转型对企业而言其实不是一个要不要去实现目标或目的,它其实已经是衡量一个企业具不具备持续发展的一种能力。因为这个世界已经是数字化的世界,你还不具备数字化的思维,还不具备数字化的连接能力,还不具备数字化的这种决策方式,其实就好像动物的生态被颠覆的过程当中,不适应变化就没有办法去跟原有的生态相处,出现新的异常的时候,你也没有办法去预防。所以对于企业来讲,数字化的这种方式,无论是结构化的还是非结构化的,我们都需要具有这样的管理能力。
但企业数据管理能力往往在结构化数据方面强,非结构化的弱,这是与信息化的进程有关系。第一台计算机“埃尼亚克”,美国国防大学那台像房间一样大的设备目的就是为了去做统计,统计本身就是一种结构化的思维。发展到现在,我认为非结构化其实刚刚起步,很多东西我们也没有想明白,这对于企业来讲其实是一个挑战。但是企业想走得更远就必须要面对,因为企业不能只靠技术和理性的左脑,需要有文化。流程是典型的结构化,但是流程执行得好或者差是非结构化的东西起作用。就比如一个人的能力是不能用结构化阐述的,对一个事情、一个阶段的描述往往影响流程的效率,而这个描述又未必是结构化的。所以,非结构化管理能力的提升,对于企业数字化转型是非常重要的一个手段,必须要面对。做不好,企业可能就会缺少温度,企业管理要有温度,应该是40度还是60度还是30度,它就是非结构化的。所以,我特别认同文化和非结构化的连接更加有效。
像今天会议,可以把这个会议分成三部分,也可以根据角色,有主持人、演讲嘉宾,这是结构化。但是从头至尾下来的这些内容,不能要求按结构化的方式跟大家讲。企业也是这样,我们的创新、内部的教育、人员的成长,那是不可复制的,但恰恰需要分享。
张洪伟:非结构化数据进行标准化,实际上做起来是挺复杂的一个事情。非结构化数据的类型太多了,转换能力每种文件都不一样。还有管理方式,比如鸿翼的平台就提供一种管理方式。但是还有很多系统也在管理着非结构化数据,不可能所有的都能统一过来。这需要整个行业还有软件界的共同努力,提升格式、平台、平台和平台之间的交换能力,这时候标准就很重要。需要大家团结起来制定一些标准规范,大家都按照这个做,团队集团效应就出来了,整个价值就体现出来了。
罗永秀:标准重要的意义有两个方面。第一个方面站在一个行业的维度,如果我们把小型企业微型企业、中型企业、大规模企业都算在一起,那么,国内对非结构化数据管理整体规划的认知度只有1/10。如果认知度非常普遍的话,就不会出现一些基础性的问题。非结构化数据有那么多环节,现在连最基础的存储都没搞好,显然在意识层面就存在问题。所以去制定发布这样的标准,能成为DCMM(《数据管理能力成熟度评估模型》)的一个配套,是对数据管理工作的推动,是对我们国家数字经济的促进,是一个非常重要的事情。所以这个标准的制定跟推广责任重大,关乎着行业里那么多不同规模的企业的数字资产。
第二个层面,我们的客户、规则、工程、逻辑、产品、机器这些全是现实世界,数字化的结果是数据,数据80%又是非结构化数据,然后基于这些非结构化数据,再去调优,去优化,去革新我们的现实世界。数字化转型又包含了很多方面,数字化的运营、数字化营销、数字化制造,不管是哪个方向的数字化,数据80%的非结构化数据的核心地位是不可撼动的,也就是说数字化转型更多要靠占数据80%的非结构化数据。需要思考如何让非结构化数据从现实世界数字化,如何基于这些非结构化数据进行各种的分析、价值的挖掘,驱动我们现实世界的各种的优化、升级、革新。
杨建梁:首先,标准化是肯定要做的。计算机中有一个名字叫互操作性,就是说你能操作我也能操作。这个逻辑在我们人类社会中也是如此。例如普通话,我讲方言大家听不懂,这说明我们没有做好标准,没有达到标准化,所以我们没法沟通。在一个行业内,对于非结构化的数据来说,标准化就意味着不同的系统不同的机构之间数据是可以互相沟通、互相连通的,对管理者意味着同一套管理系统、一套管理体系,能够在各个行业、各个公司之间通用,迈向整个社会、迈向国际化的一个基本要求就是标准化。
在电子文件和档案管理领域标准是非常丰富的。不仅仅有成熟度模型,成熟度模型本身是管理效果的要求。而对于非结构化数据本身,数据的结构、数据的质量也需要做标准化,非结构化数据的元数据也需要做标准化,非结构化数据的管理系统建设也需要标准化,包括后续的质量、数据、结构都需要标准化,才能够把非结构化数据管理推向正轨,这也是我们做标准化的一个重要的意义,是我们需要继续努力的。
董总监:把非结构化的数据通过一种结构化思维去管理,实际上就是要在非结构化的数据的传输存储以及协作的过程当中给一定的规则。其实在虚拟世界里定标准是最重要的,因为在虚拟世界里它是突破了现实世界的认知的。对于整个的文档系统,比如说报批国际注册的一些药品,其实是通过非结构化的数据报文件,但文件现在已经有了一套结构化的工具,相当于是给你一套文档的头文件,把相应的东西装进去就可以识别进行交流,这其实就是非结构化数据的标准化往前发展的一个过程。
现在AI对于非结构化的认知,其实是超出了我们现有的现实手段,所以对于非结构化未来这个标准,我抱有很高的期望,因为它能够对未来现实世界进行改造,用虚拟世界去对现实世界的不确定性作出预测,用虚拟的一套思维逻辑对现实世界重新进行思考,这是我们可能在现实当中能够脱颖而出,能够解决一些现实当中没有办法解决的问题的时候要考虑的。比如说要模拟一个车祸,你没办法在现实的情况下展示那种创伤的冲击力。所以这些标准能够让我们对未来数字化的认识、理解加速,带来一些思考的逻辑和方法,使数字化展示能够加速,所以对于标准的建设,致以崇高敬意。
陈亚军:标准第一个作用就是把大家的概念思维的方式统一起来,最权威的解释永远不是在字典里面,而是在标准里面。
第二个作用,标准最大的一个导向就是简化,简化以后所有的适配减少,效率提升。在文件格式这块,标准院做基础文件、基础数据的时候,把电子文件分为文书类、音视频类,在每一类里面只推一种模式。这也是标准化的理念对现在面临的一个问题给出了一个解决的方案,但这不一定是唯一的解决方案,这是我们目前的方案。
(欢迎大家加入数据工匠知识星球获取更多资讯。)
联系我们
扫描二维码关注我们
微信:SZH9543邮箱:ccjiu@163.comQQ:2286075659热门文章
【新书推荐】数据治理多少事,都付本书中-《数据治理:工业企业数字化转型之道》(文后有福利)
深度解读DMBOK2.0袖珍版《穿越数据迷宫–数据管理执行指南》
成功的大数据治理项目须坚持“六个导向”和“三个相结合原则”及“四个坚持和五个避免” ( 推荐收藏)
“一平台、两体系、三性特征、四个统一、五个超越、六类服务 ”一篇读懂数据治理、共享和应用(值得收藏)
资产密集型企业的物料/资产/设备数据治理难点和建设思路(推荐收藏)
“五段码”描述模型技术和 “四个八二法则”实施方法论是物料数据治理成功基石
我们的使命:发展数据治理行业、普及数据治理知识、改变企业数据管理现状、提高企业数据质量、推动企业走进大数据时代。
我们的愿景:打造数据治理专家、数据治理平台、数据治理生态圈。
我们的价值观:凝聚行业力量、打造数据治理全链条平台、改变数据治理生态圈。
了解更多精彩内容
长按,识别二维码,关注我们吧!
数据工匠俱乐部
微信号:zgsjgjjlb
专注数据治理,推动大数据发展。