梅宏院士:大数据发展现状与未来趋势
名词解释:
API:应用编程接口(Application Programming Interface)的首字母缩写,是指某软件系统或平台为其他应用软件系统提供的一组函数,通过调用这些函数,其他应用软件系统可以使用此软件系统或平台的部分功能或访问某些数据。
开源平台:“开源”是开放源代码的简称,开源平台是指支持开源社区活动,管理开放源代码,向所有开源社区参与者提供相关服务的软件平台(平台基于互联网构建并通过互联网通过服务)。任何人都可以获得开源软件的源代码并加以修改,并在某个预先约定的开源协议限制范围内发布修改后的新版本。结合上下文,这里的开源平台是指提供大数据管理、处理、分析等方面能力的开源软件的软件平台。
可伸缩的计算体系结构:可伸缩英文为scalable,指一个计算系统的能力和性能随应用负载的增加,通过极少的改动或配置甚至只是简单的硬件资源增加,而保持线性增长的能力,是表征计算系统处理能力的一个重要的设计指标。可伸缩的计算体系结构是计算系统体系结构设计追求的重要指标,软件定义、虚拟化、资源池化等方法和技术常用于可伸缩性的实现。
鲁棒性:鲁棒是英文Robust的音译,也就是健壮的意思,因此鲁棒性也被翻译为健壮性。鲁棒性一般用于描述一个系统在异常或极端情况下仍然可以工作的能力。结合上下文,这里谈及的大数据分析模型的鲁棒性是指在数据存在错误、噪音、缺失,甚至在恶意数据攻击等异常情况下,模型仍然能得到较为准确结论的能力。
数据互操作:数据互操作是指不同信息系统之间可以通过网络连接对彼此的数据进行访问,包括对其他系统数据的读取与写入。数据互操作是实现数据共享的基础。
“全数据”:“全数据”也称“全量数据”,是与“采样数据”相对的概念。传统的数据分析受限于数据采集、存储、处理的成本,一般都仅对问题相关的所有数据进行局部采样,并基于采样获得的部分数据进行分析,得出结论,结论的准确性与采样方法以及对被采样数据的统计假设密切相关。而大数据时代,人们开始提出“全数据”的概念,即,并不采样,而是将与问题相关的所有数据全部输入到分析模型中分析。这种方法避免了因采样而可能带来的误差,但是也增加了计算成本。
云边端融合:云是指云计算中心,边是指边缘计算设备,端是指终端设备。以智能家居为例,智能电视、冰箱、空调等直接与用户交互的设备是“端”,通过互联网连接的异地的云计算平台是“云”,而安装在每个家庭的智能家居中控服务器是“边”。云计算中心具有强大的计算存储能力,一般用于复杂的数据计算处理;终端设备距离最终用户较近,对用户的操作响应快,一般负责与用户进行交互;边缘计算设备介于“云”和“端”之间,负责对端所采集的数据做本地化处理,同时将需要更强大计算能力支持的任务和数据发往云计算中心处理,并将“云”返回的结果提供给端设备。云边端融合是一种“云”、“边”、“端”不同计算设备各司其职,密切协同且优势互补的新型计算模式。
宽带、移动、泛在的网络通信:“宽带”是指通信速率高,海量大数据的高速传输需求推动骨干网络向Pb/s发展;“移动”是指移动通信;“泛在”是指无所不在。宽带、移动、泛在通信是指:未来大量移动终端和物联网设备通过无所不在的接入网络接入主干网并通过高速主干网络进行通信。
安全多方计算:安全多方计算是为解决在保护隐私信息以及没有可信第三方的前提下,一组互不信任的参与方之间的协同计算问题而提出的理论框架。安全多方计算能够同时确保输入的隐私性和计算的正确性,在无可信第三方的前提下通过数学理论保证参与计算的各方成员输入信息不暴露,且同时能够获得准确的运算结果。此项技术的研究尚处于初级阶段。
同态加密:同态加密是一种密码学技术,其核心在于保证:对经过同态加密的数据进行处理(如:运行某种数据分析算法)后得到输出,将这一输出进行解密,其结果与用同一方法(即上述数据分析算法)处理未加密的原始数据得到的输出结果一致。同态加密技术使得数据拥有者可以将数据加密后交给第三方处理,从第三方获得处理结果后,对此结果进行解密便可获得所期望的结果。如此一来,数据拥有者就不必担心因将原始数据交给第三方而存在的隐私泄露风险,同时又能获得第三方提供的数据分析服务。此项技术的研究尚处于初级阶段。
联邦学习:联邦机器学习是一个多组织协同的机器学习框架,使得一个组织在不共享原始数据的情况下,可以利用其他组织数据中所蕴含的信息和知识,建立协同的机器学习模型。此模型比各组织仅利用本组织内部数据而训练的机器学习模型有更高的性能。此项技术的研究尚处于初级阶段。
ZB、EB、Pb/s、Gb/s:在计算机领域,一个二进制位称为一个比特,一般用小写b表示;而8个二进制位称一个字节,用大写B表示。简言之:1B=8b。计算数据量或数据所需存储空间大小时,习惯用字节为单位(用B表示)。1KB=1024B,1MB=1024KB,1GB=1024MB(通常简记为109),1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB。1EB约等于10亿GB,而1ZB约等于1万亿GB。假设一首长为3分钟的歌曲录制成MP3文件(44K/320kbps音质),大小约为8MB,那么1ZB的数据存储空间可存储MP3格式歌曲140万亿多首,如果全部听一遍,需要8亿多年。计算网络传输速率时习惯上用比特每秒为单位(用b/s表示)。1Pb/S和1Gb/S分别代表1秒钟传输的数据是1P(1000万亿)个比特和1G(10亿)个比特。网络速率1Gb/S(此处是小写b)的情况下,下载一个2GB(此处是大写B)的电影,需要16秒;而网络速率1Pb/S的情况下,仅需要0.016毫秒。
来源丨中国人大网
编辑丨阿佼
●庆祝新中国成立70周年丨培育大数据发展的热土 塑造世界认识贵州的名片
●庆祝新中国成立70周年丨弄潮数字化时代 “中国数谷”加速崛起
数往未来 博览世界 会天下英杰