其他
DaSESS2016-面向科学发现的大数据管理系列回顾之三
摘要:天文大数据是第四研究范式的典型应用,对科学数据库和大规模数据管理及分析领域提出了新的挑战。李晖副教授对天文学领域的背景知识进行了简要介绍,结合FAST项目的需求,研究诸多大数据系统,最后选择SciDB,并衍生出FastDB。1. 研究范式的转变经典科学研究的范式包含实验科学、归纳总结以及计算机仿真。随着技术发展,数据密集型科学研究(科学大数据研究)已成为了一种新的研究范式。计算机技术是数据存储、管理及分析的基础,因此计算机在科学研究中扮演着非常重要的角色。在“电脑+人脑”的这种第四范式中,电脑的比重提高,甚至希望成为主角。调整对因果关系的执着,转而着重关注相关关系。互联网技术的发展使得人类进入到大数据的时代,但是和宇宙数百亿光年相比,人类产生的数据量是微乎其微。先进的观测设备运行过程中积累了大量的科学数据,毫无疑问,天文学是最早迎接大数据挑战的领域之一,并且也是最早意识到数据驱动的科学研究趋势的学科之一。2. FAST及典型应用随着世界上最大射电望远镜FAST(Five-hundred-meter Aperture Spherical radio Telescope)的建成,这不仅给中国天文研究人员带来了新的机遇,也给科学数据库和大规模数据管理及分析领域带来了新的挑战。FAST是世界上在建的口径最大的单天线射电望远镜,其口径有500米,位于贵州省平塘县,每天可产生10-50TB的数据,如下图所示。