中国系统 | 从数据到数据智能 使能行业智能化升级
早在《易九家言》中,就对结绳记事有过记载:“事大,大结其绳;事小,小结其绳,之多少,随物众寡”。人们最早可以使用各种颜色,各种材质,粗细不同等绳子构建出数百个绳结词汇,以此来进行完整的有效记载。
随着进入农耕文明,农闲时有了观察的时间,人们积累的数据开始增加,结绳记事已经满足不了人们的日常需求,需要有一种新的方式来记录白天时长,气候变化等等。在当时,人们就有了某种抽象的符号来承载这些信息。后来随着印度-阿拉伯数字系统的起源和发展,数字数据开始广泛流传。
数据搭载着信息以及记录价值随着人们的生活一直发展至今,尤其是现代计算机信息科技高速发展,让人们步入了洪水般的“大数据时代”。正如维克托·迈尔-舍恩伯格(是最早洞见大数据时代发展趋势的数据科学家之一,也是最受人尊敬的权威发言人之一。担任耶鲁大学、芝加哥大学、弗吉尼亚大学、圣地亚哥大学、维也纳大学的客座教授。)在《大数据时代》中前瞻性地指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型。
从“数据”到“价值”的提取
从数据的起源到迅猛发展,人们一直在追求数据中的价值。
其中不乏一些经典案例:
1 | 全球零售业巨头沃尔玛在对消费者购物行为分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个举措居然使尿布和啤酒的销量都大幅增加了。 |
2 | 2009年,Google通过分析5000万条美国人最频繁检索的词汇,将之和美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较,并建立一个特定的数学模型。最终google成功预测了2009冬季流感的传播甚至可以具体到特定的地区和州。 |
3 | 2013年,微软纽约研究院的经济学家大卫·罗斯柴尔德(DavidRothschild)利用数据成功预测24个奥斯卡奖项中的19个,成为人们津津乐道的话题。今年罗斯柴尔德再接再厉,成功预测第86届奥斯卡金像奖颁奖典礼24个奖项中的21个,继续向人们展示现代科技的神奇魔力。 |
上述的案例大致经历如下几个阶段:
阶段1:首先是数据的产生、采集、与处理的阶段;
阶段2:定义和数据相关的业务问题;
阶段3:数据挖掘与统计建模;
阶段4:数据业务场景的实施。
数据价值提取推动“数据智能”的发展
在人们在对数据价值的不断提炼中,慢慢摸索出来数据价值的最大化过程:数据(记录发生了什么事情)=>信息/知识(为什么发生这件事)=>智能/预测(什么事情将要发生)=>洞察/决策(什么是可发生的最佳结果),一步一步迎来的是“数据智能”的发展。
随着数据红利消耗殆尽,以深度学习为代表的感知智能遇到天花板,认知智能将是未来一段时间内AI发展的焦点,是进一步释放AI产能的关键。
感知智能:
对多源异构数据采集、存储,进行结构化处理,进而完成特征提取。
认知智能:
充分理解数据关系,确定业务分析逻辑,构建知识图谱,进行数据挖掘推理,实现智能决策。
行动智能:
完成人机协同。
同样在中国信息通信研究院发布的《2021认知智能发展研究报告》中得到了类似的说法。
随着相关技术的发展,数据智能技术的发展也遇到了诸多问题:
数据分散
数据分散在各个业务系统中,分布在不同的云环境、IDC、集群中,造成了数据很难统一汇总,从而很难统一分析;
数据类型复杂,尤其是对于非结构数据的利用,无论是从实时性还是一致性都无法形成全局数据视图;
由于前期的数据治理不彻底,造成了数据标准化工作缓慢推进,对数据智能分析造成很大困扰。
融合计算能力差
针对结构化、半结构化和非结构化的融合统一分析、挖掘,在效率和实时性上都遇到很大的困难;
缺乏安全保障
数据在查询分析过程中,数据安全难以保障,缺乏有效的安全机制来对数据隐私进行保护。
从数据到知识构建不足
在感知层面的模型,大部分是数据在不同维度空间的映射,但是数据之间的关联、推理依据和模型本身的可解释性都不是很成熟。
从理解到思考欠缺
在感知智能的识别理解世界层面做的比较多,在联想推理、生产输出怎么做,就做的比较少,不具备认知思考能力。
如何破解数据智能发展“难题”
数据层面
跨云、跨IDC、跨集群接入各类数据源,按需用数,不迁移数据。即使数据没有完全汇总到一起,也可以进行统一分析。
统一元数据管理,构建实时、一致的全局数据视图。不管是结构化数据还是非结构化数据都进行统一管理。
引入智能化技术自动治理,统一入口快落标,加快数据智能分析进度。
融合计算层面
完全去中心化的分布式计算模式,独立控制的对等计算节点,提供高效的计算能力。采用实时计算框架,融合非结构化数据跨源查询,保障实时查询分析。
安全层面
在内置在平台节点的计算内核中,通过统一权限认证、统一安全审计、网络智能分析能力,实现数据安全本质的机密性、完整性、可用性的防护。通过算法和协议在数据查询、处理和分析过程中加强安全保障。利用领先的隐私计算技术保护数据隐私。
数据知识层面
构建智能知识引擎,完成实体、关系识别,进行知识融合,完成知识计算。充分说明数据之间的关联及推理依据,让模型本身具备更充足解释性。
认知思考层面
搭建规则引擎,实现规则提取、发布、评估等一体化管理。搭配决策智能引擎,实现模型训练、评估、发布、管理和服务,进而完成联想推理,输出智能决策指导生产。
打造核心能力,推动广泛应用
从理解到思考的能力:
不仅是在识别理解世界上还需要在联想推理、生产输出方面具备思考的能力。
从数据到知识的能力:
感知层面的模型,更多的是数据在不同维度空间的映射,还需要在数据之间的关联、推理依据和模型本身的可解释性等方面上深入发展。
降低成本和快速落地的能力:
虽然大多时候还是强数据驱动,不同功能、不同场景所需要的数据不一样,所以需要在大量数据分析、少样本学习、能力迁移、跨域应用上,尽量降低成本做到泛化,进而实现快速推广落地。
中国系统面向公安、医疗、交通、能源、海关、人社等专业领域,以业务智能化需求为目标提供一体化解决方案,构建实时感知与数据处理能力、多模态决策推理能力、跨源跨系统融合分析能力,实现数据智能支撑业务发展与决策。