其他
DaSESS2016-面向科学发现的大数据管理系列回顾之四
近年来,大数据不断地向社会各行各业渗透,使得大数据的技术领域和行业边界愈来愈模糊,应用创新已超越技术本身而更受青睐。 大数据技术可以为每一个领域带去变革性影响,并且它正在成为各行各业颠覆性创新的原动力和助推器。作为从事近三十年数据库学习和十年数据密集型计算数据管理研究的资深学者,周傲英教授从事大数据研究也已有五年,他对大数据的分析与管理有着深刻理解,并在SAP支持下成立了“大数据研究中心”。
近年来,伴随着互联网技术迅猛发展,环境信息化企业进入了高速发展期。随着大数据时代的到来,环境信息化企业成为环境管理创新中一支不可或缺的力量,环境大数据具有非常大的发展前景。作为上海绿然投资管理有限公司董事长王勇博士对环境大数据的建立和应用进行了介绍。首先,王勇博士从时间和空间上阐述了环境大数据。他介绍到在环保部开展的“环评和检测工作创新”大讨论中,环保部部长陈吉宁指出大数据、互联网、智能技术已经成为推进环境治理体系和能力现代化的重要手段。2016年3月,环境保护部办公厅发布了《生态环境大数据建设总体方案》,通过生态环境大数据建设和应用,在未来五年实现环境数据资源共享平台的基础建设和环境信息资源中心的数据建设,实现用“数据决策”。《企业事业单位环境信息公开办法》于2015年1月1日起施行,并将吉林、贵州、江苏、内蒙古、武汉、绍兴作为试点,施行现状是数据还没有真正“开口说话”。以美国为例,2012年奥巴马政府颁布了“数据的研究和发展计划”,美国国家环境保护局设立信息办公室,主管数据的信息使用与传播。接着,关于环境大数据的应用,王勇博士以科学决策和生态环境监测为例进行了介绍。随后,王勇博士对此次报告进行了总结。环境大数据时代,为政府的科学决策和公众的环境知情权带来福音,而企业正经历前所未有的挑战,环境大数据的建立和整合是关键所在,其应用可以大大提高企业管理的效率和财务表现。环境大数据助推环保管理从环境影响评价向环境质量为核心转型。最后,杨丹丹总经理从企业环境信息管理和环境大数据与排污许可证管理进行了案例分析,指出环境信息是商业机会,环境大数据的toB应用,根植于不同行业对于多种专业信息的需求。
武博士所在团队研究并开发了基于位图索引技术的科学数据管理系统FastBit。位图索引技术可以快速地的找出属性具有特定值或范围的行。传统的位图索引占用的体积与数据集的行数和每个属性的基数成正比。不幸的是,在科学数据管理中,数据集的行数不仅可能非常大,并且属性常具有很高的基数。这两个原因导致了科学数据的位图占用的体积可能非常巨大,因此FastBit采用了某些技术来减小索引的体积。一方面,针对位图索引中存在大量相同且连续的序列的情况,FastBit采用了Word-Aligned Hybrid(WAH)压缩算法,用两种不同的word(压缩和未压缩)来表示位图索引。这一技术相对于BBC和DBMS算法具有更好的压缩效果。另一方面,针对属性基数过大的问题,采用Encoding技术来降低索引的规模,基本的策略有Range, Interval, Equality三种,以及两种高级策略,即:multi-component(将数值按照十进制或者二进制的表示形式分成多个部分)和 multi-level(针对skew数据)。此外科学数据常常需要保留较高的精度,也造成了属性的基数较大,但由于实际的查询的往往仅给低精度的条件,所以在查询时采用粗粒度的装箱技术(Binning)进行初步筛选(candidate check),当且仅当需要更细粒度的结果时才进一步向下搜索。武博士还介绍了FastBit项目在科学研究中的真实应用,例如在某个实时网络检测数据分析项目中,FastBit用于存储和查询历史数据。FastBit的项目主页为:https://code.lbl.gov/projects/fastbit/武博士还介绍了SDS (Science Data Service)系统及其应用。劳伦斯伯克利实验室在科学实验中会产生海量不同格式和类型的数据,为了高效地存储和访问这些数据,SDS系统应运而生。SDS有三个主要特点,基于多维数组的通用数据模型;数据可以被直接访问,使用时无需转换格式;与现有的分析工具尽可能相兼容,以避免修改代码。SDS部署在Linux集群上,数据被存储在专用的大规模磁盘阵列上,当进行数据分析时通过高速网络进行访问。