其他

DaSESS2016-面向科学发现的大数据管理系列回顾之四

2016-09-20 DaSE 华东师范大学数据学院
7月22日上午
题目:感悟大数据 — 谈谈对当前形势的理解主讲人:周傲英 教授 华东师范大学 副校长 数据科学与工程研究院院长主讲人简介:周傲英,华东师范大学长江学者特聘教授、研究生院院长、数据科学与工程研究院院长。分别于1985和1988年在成都科技大学获得计算机应用学士和硕士学位,1993年在复旦大学计算机系获得博士学位。曾获得国家杰出青年基金。目前担任第七届国务院学科评议组成员,中国计算机学会数据库专业委员会副主任、《计算机学报》副主编;曾任ER'2004大会主席、ICDE'2009、ICDE'2012 PC副主席、VLDB'2014 PC共同主席。研究兴趣主要包括Web数据管理、数据密集型计算、内存集群计算、分布事务处理,大数据基准测试和性能优化。
回顾:
近年来,大数据不断地向社会各行各业渗透,使得大数据的技术领域和行业边界愈来愈模糊,应用创新已超越技术本身而更受青睐。 大数据技术可以为每一个领域带去变革性影响,并且它正在成为各行各业颠覆性创新的原动力和助推器。作为从事近三十年数据库学习和十年数据密集型计算数据管理研究的资深学者,周傲英教授从事大数据研究也已有五年,他对大数据的分析与管理有着深刻理解,并在SAP支持下成立了“大数据研究中心”。
首先,周傲英教授从“大数据全景图”出发,在大数据时代背景下以宏观视角解读,从企业中大数据的案例分析,深入浅出地介绍了大数据时代下的企业发展战略。随后,周教授对“互联网+”、“信息化”等热点话题和现象作了解释。紧接着,周教授介绍了IT发展模式的转型。在传统IT发展模式下,企业发布硬件或软件产品,系统集成商提供解决方案和采购清单,应用单位削足适履。而现在时兴的互联网企业应用驱动创新,推动了云计算和大数据这两个近十年来IT热点技术的发展,开源万众创新实现了技术生态的建设。互联网企业的成功使得“草根”可以打破垄断。周教授指出,我们不仅要基于现实应用,更立足于实现系统。然后,周教授回顾了数据管理技术。一体适用(one size fits all)的数据库是数据管理的温饱阶段,而大数据标志数据管理进入时尚阶段。数据库理念的关键是抽象,而关系模型、事务管理和查询优化这三大抽象成就造就了千亿美元的产业。周教授指出,数据管理的原点即文件系统,现在应当回归原点,在文件系统的基础上研发系统,支持实际应用并适度地进行概括抽象,以形成相对通用的系统。同时,周教授针对大数据分享了自己的精辟见解。互联网的本质是通过人与人之间的连接和用户体验改变世界。大数据的核心是使原本各自孤立的数据得以互相关联、融合。因此,互联网为数据的汇聚提供了平台。周教授将大数据比喻成一把伞,在大风烈日下大数据伞为大家提供庇护,使得伞下每个人能脚踏实地,否则就会浮起来,过量就会变成“霾”,人就会散。随后,周教授介绍了新语境下不同类型企业的发展,并以IT学科为例,指出我们应该应用驱动创新、开源加速创新,硬件助力创新来顺应IT发展模式的变化,这将有利于国家长远发展,在夯实基础、自成体系、安全可靠、自主可控上有着特殊意义。周教授指出了互联网经济发展的三个阶段:粉丝经济、智慧经济和分享经济。关于分享经济,周教授通过优步、空中食宿以及网络约车等企业案例进行解读,指出互联网经济的本质是产品(服务)消费者和提供者的连接,信息不对称造成垄断,需要去中心化。随之介绍了比特币和区块链技术。最后,周傲英教授对本次报告进行了总结。互联网改变一切的同时,也改变了信息技术的发展范式、开放了结构、开源了社区,解放了思想、解决了问题。 “应用驱动创新”成为IT领路创新链上的重要环节。面对实际问题,应当博采众长、实施创新。
题目:环境大数据主讲人:王勇 上海绿然环境信息技术有限公司 董事长           杨丹丹 上海绿然环境信息技术有限公司 总经理主讲人简介:王勇博士有30年的环保教育、科研、咨询、管理和投资经验。  长期为私营企业、跨国公司和政府提供环境、安全、健康管理和领导力、可持续发展、风险管理、土壤地下水修复、低碳战略、并购、和绿色投资等领域的咨询服务。王博士曾为美铝、 壳牌、美国空气化工、英国石油公司、米其林、 3M、日产、宝钢、中海油、中化集团 等国内外知名跨国公司的收购、兼并及新建项目提供选址、法规、环境风险及环境信息管理等领域的战略研究和咨询服务。杨丹丹有十五年工业企业环境、健康与安全(EHS)管理和咨询服务经验,曾就职于生产制造企业、研发机构、销售和总部管理机构等不同组织。她擅长于企业环境信息管理服务与EHS软件研发、法规服务、管理系统、金融行业EHS管理机制、风险与危机管理等方面。杨丹丹女士也是一名经验十分丰富的专业培训师,长于为客户独身定做并管理EHS法规、技术与管理培训项目。
回顾:
近年来,伴随着互联网技术迅猛发展,环境信息化企业进入了高速发展期。随着大数据时代的到来,环境信息化企业成为环境管理创新中一支不可或缺的力量,环境大数据具有非常大的发展前景。作为上海绿然投资管理有限公司董事长王勇博士对环境大数据的建立和应用进行了介绍。首先,王勇博士从时间和空间上阐述了环境大数据。他介绍到在环保部开展的“环评和检测工作创新”大讨论中,环保部部长陈吉宁指出大数据、互联网、智能技术已经成为推进环境治理体系和能力现代化的重要手段。2016年3月,环境保护部办公厅发布了《生态环境大数据建设总体方案》,通过生态环境大数据建设和应用,在未来五年实现环境数据资源共享平台的基础建设和环境信息资源中心的数据建设,实现用“数据决策”。《企业事业单位环境信息公开办法》于2015年1月1日起施行,并将吉林、贵州、江苏、内蒙古、武汉、绍兴作为试点,施行现状是数据还没有真正“开口说话”。以美国为例,2012年奥巴马政府颁布了“数据的研究和发展计划”,美国国家环境保护局设立信息办公室,主管数据的信息使用与传播。接着,关于环境大数据的应用,王勇博士以科学决策和生态环境监测为例进行了介绍。随后,王勇博士对此次报告进行了总结。环境大数据时代,为政府的科学决策和公众的环境知情权带来福音,而企业正经历前所未有的挑战,环境大数据的建立和整合是关键所在,其应用可以大大提高企业管理的效率和财务表现。环境大数据助推环保管理从环境影响评价向环境质量为核心转型。最后,杨丹丹总经理从企业环境信息管理和环境大数据与排污许可证管理进行了案例分析,指出环境信息是商业机会,环境大数据的toB应用,根植于不同行业对于多种专业信息的需求。
7月22日下午-7月23日上午
题目:Concepts and Tools for Accessing Large Scientific Data Sets主讲人:K. John Wu  Senior Computer Scientist  Lawrence Berkeley National Laboratory主讲人简介:Kesheng(John) Wu, 中文名武克胜。武博士于University of Minnesota获得计算机科学博士学位。目前在劳伦斯伯克利实验室从事大规模科学数据管理研究工作。他是FastBit位图索引的发明者之一。他的个人主页为:  http://crd.lbl.gov/departments/data-science-and-technology/SDM/staff/wu/
回顾:现代科学实验会产生海量数据,例如,在寻找“上帝粒子”的研究中,理论上传感器每秒钟就可以产生140PB的数据量,即使经过重重筛选,每年仍然会产生大约15PB的实验数据。这些实验中产生的数据量是如此之大,采用传统的文件系统和关系数据库很难有效管理。另一方面,在科学研究中,对实验数据进行大规模的复杂查询是常见的。这些查询往往需要访问TB级别以上的数据,并且查询的条件常涉及很多不同属性。所以科学数据管理系统必须尽可能地提高查询速度,降低查询延时。
武博士所在团队研究并开发了基于位图索引技术的科学数据管理系统FastBit。位图索引技术可以快速地的找出属性具有特定值或范围的行。传统的位图索引占用的体积与数据集的行数和每个属性的基数成正比。不幸的是,在科学数据管理中,数据集的行数不仅可能非常大,并且属性常具有很高的基数。这两个原因导致了科学数据的位图占用的体积可能非常巨大,因此FastBit采用了某些技术来减小索引的体积。一方面,针对位图索引中存在大量相同且连续的序列的情况,FastBit采用了Word-Aligned Hybrid(WAH)压缩算法,用两种不同的word(压缩和未压缩)来表示位图索引。这一技术相对于BBC和DBMS算法具有更好的压缩效果。另一方面,针对属性基数过大的问题,采用Encoding技术来降低索引的规模,基本的策略有Range, Interval, Equality三种,以及两种高级策略,即:multi-component(将数值按照十进制或者二进制的表示形式分成多个部分)和 multi-level(针对skew数据)。此外科学数据常常需要保留较高的精度,也造成了属性的基数较大,但由于实际的查询的往往仅给低精度的条件,所以在查询时采用粗粒度的装箱技术(Binning)进行初步筛选(candidate check),当且仅当需要更细粒度的结果时才进一步向下搜索。武博士还介绍了FastBit项目在科学研究中的真实应用,例如在某个实时网络检测数据分析项目中,FastBit用于存储和查询历史数据。FastBit的项目主页为:https://code.lbl.gov/projects/fastbit/武博士还介绍了SDS (Science Data Service)系统及其应用。劳伦斯伯克利实验室在科学实验中会产生海量不同格式和类型的数据,为了高效地存储和访问这些数据,SDS系统应运而生。SDS有三个主要特点,基于多维数组的通用数据模型;数据可以被直接访问,使用时无需转换格式;与现有的分析工具尽可能相兼容,以避免修改代码。SDS部署在Linux集群上,数据被存储在专用的大规模磁盘阵列上,当进行数据分析时通过高速网络进行访问。
武博士随后以海量数据的排序为例介绍了SDS系统的应用。SDS排序共分为三个阶段:1.      Pivot selection:进行抽样,获取数据的大致分布,最终确定进行将数据划分的分割点;2.      Data exchange:基于确定的分割点,通过网络将数据发送到对应的节点上;3.      Local ordering:每个节点进行本地排序,当所有节点完成本地排序时,全局即有序。值得注意的是,为了解决skew数据所造成的负载不均衡问题,需要使用PSS算法对划分的结果进行修正,避免某些节点处理过多的数据。最后武博士介绍了IDEALEM Stream压缩技术。对于某些传感器网络例如电网监控系统来说,往往会实时地产生大量的近似随机的浮点数时间序列数据,如电压,电流,功率等。IDEALEM是基于统计学方法的一种有损压缩技术,主要思想是识别序列中统计学意义上相似度较高的时间片段,并用同一时间片段进行替代。该算法可以对该类型的数据提供很高的压缩比率(100倍以上),显著降低了后续数据存储和分析的难度。武博士也客观地指出该算法处理某些数据时,仍然存在着少量“失真”的情况,需要在未来进一步改进。武博士的课不仅介绍了科学数据管理的研究前沿和应用,还启发了学生对于相关研究本质问题的思考。在不同领域所面临的数据管理挑战是不同的。比如科学实验数据,在量级上是等于甚至超过互联网上产生的数据的,且以数值数据为主,因此数据压缩,实时分析等特性对于科学数据管理至关重要。这从侧面验证了Michael Stonebraker的“One size fit none”的观点。另一方面,理论研究和需求是紧密结合的,比如说武博士研发的FastBit是从物理学实验的真实应用出发,有效地满足了科学实验数据管理和分析的需求。

长按二维码关注


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存