查看原文
其他

【速记】同济大学教授 王伟:同济-星环“数据科学与大数据实践平台”建设

2017-11-28 星环科技 星环科技

10月31日,2017星环智慧大数据巡回论坛——郑州站顺利举行,本次巡回论坛同步开设“中原高校教育大数据分论坛”。


因会后收到不少嘉宾反馈,对演讲内容非常感兴趣,演讲信息量大,现场又无法及时记录,特在后期推出嘉宾演讲速记系列,以最大程度弥补这个遗憾。

导读

【大数据在教育行业的应用案例】

【演讲主题】同济-星环“数据科学与大数据实践平台”建设

【演讲内容】同济大学的王伟教授介绍了同济大学与星环合作进行的人才建设工作。演讲内容主要包括:

一、为什么和星环联手建设“数据科学与大实践平台”

二、数据科学

三、课程实验平台建设


为什么和星环联手建设“数据科学与大实践平台”


首先,同济为什么开始和星环联手进行“数据科学与大实践平台”建设?本人在负责同济的大数据和数据科学课程建设的过程中,感受到数据对各行业影响的同时,深切的感受到了大数据对高校课程教育的冲击。大数据其实是一个涉及行业领域和学科都很多的专业,是一个跨学科专业,即便是在单一学科内部,也对课程的技术体系进行着重构。随着数据科学的发展,高校的传统数据库、数据挖掘等课程也受到了冲击。


信息科学的前进步伐很快。当高校还在谈计算思维的时候,工程认证已经开始了;当高校开展工程认证的时候,新工科又来了。2017年3月17日,教育部公开第二批“数据科学与大数据技术“专业获批高校,数据科学和大数据技术作为一级学科的立项也即将开始。全国也建立了大数据教育联盟。在这个大背景下,高校如何应对变得尤为重要。相信河南的众多高校也在申请或者获批的过程中。根据我们的实际经验,高校独立完成数据科学的课程建设,会是非常吃力的,教材更新、教学体系更新对于教师的要求很高,同济的先行就是探索能否和企业共同进行课程建设,进行教学改革。


在这个过程中,我们接触到了星环。在国内,星环在大数据领域是走在前列的。星环自身也很重视培训和教育,我们和星环已经进行了两年多的合作,涉及到示范课程建设、校企实训基地建设、学生创新创业等方面,基本形成了产学研用相结合的深度合作模式。在课程建设上,同济会邀请星环的资深专家前来授课,将最新的技术发展传递到校园。同时,我们会将学生输送到星环进行培训,实际学习并操作TDH平台,并得到认证,成为具有实操性的人才。

数据科学


数据科学。相信很多人都在思考数据科学到底是什么,大数据和数据科学本身就是跨学科的,里面包含的几块主要内容,我们认为就是思维、计算机、统计和应用,这些也是形成整个课程体系的支柱。我对数据科学的三大支柱做了一个总结:数据学、分析学、算法学。在课程设置中,数据学对应的是数据管理,分析学对应的是传统的统计方法,算法学是计算机算法相关的内容。这是网上的一张图,我略做修改了一下,实际上可以从数据科学的发展历程来看,可以看到它一个非常明显的跨学科路径,都是最后汇聚在我们数据科学整个的知识体系中。

数据科学五大要素。分析思维、统计模型、算法技术、数据技术和综合应用这五大块,就可以形成数据科学里面核心的一些知识点。比如说现在北大,或者上海华师大,还有复旦,都在建设数据科学的一些核心体系,这些内容我们基本上可以认为是数据科学或者大数据里面最基本的一些内容。


我在同济开设了两门全新的数据科学课程。一门是《数据科学通识导论》。这个导论课的内层是面向全校的一个通识选修课,当时的想法是希望能够对标我们大学计算机基础,因为我不知道各位所在的学校大学计算机基础在上什么东西,同济的基础计算机课程甚至还在上Windows、Office这些东西,实际上数据时代来了以后,我个人认为我们每个同学都应该至少去了解我们数据科学里面的很多东西,它包括了我们的计算机、统计,还有我们的一些分析相关的内容。



另一门是《大数据原理与实践》,课程稍微专业一些,这个如果是科班出身的,可能会看得比较清楚,数据从纯分析、挖掘、展示到应用,这样一个流程。这个课程对标的是计算机导论,如果是建设一门数据科学专业的话,第一门课我们就希望去上这样一门课,后续的课程是围绕它的一个深入。



去年的课程选修同学报名是很踊跃的,我们一期课程从最初的70人容量一天之内报满,扩充到120人,第二天也全部报满。这还是在嘉定校区的报名情况,选课的同学来自很多其他专业,相信如果实在本部,很懂文理科的同学都会选类似课程,我们也做过调查, 数据科学还是很有影响力的。


我在这一部分做了实践,总的来说就是建立对话,激发思辨,协作交流,动手实践。去年开始,我把课程放在公众号上,课前发布课件,课中组织同学展开讨论,课后重新总结,然后把内容全部发布出来。我建设的这两门课程所有的课件和内容,都可以在公众号找到。我也通过一些间接对话,找出来很多相关的问题,因为是通识课,我们也是希望更多的引导同学,或者是激发他们的兴趣,为他们后续的一些专业课程做好一些准备。我也出了很多思考题,效果也挺好的,因为很多题目本身也是我自己想知道的,而且很多题目都是非常开放的,比如说人工智能的一些看法,隐私的一些看法,我发现我从里面也学到了很多,因为我们的同学确实还是挺不错的,很多同学的想法,他们对整个世界的看法,确实也值得我们老师去看。

课程实验平台建设


另外,也是我今天最想重点分享的,就是动手实践。因为我觉得数据科学、大数据这门课就应该是一个和动手实践非常相关的东西。如果玩数据,只是上理论课,那一点意义都没有,而且这种动手最好能够贯穿整个学习当中。这个时候,我们又提出来一个东西,MOOC,可能大家都知道,大规模开发在线课程,我们提出来一个概念,大规模开放在线持续平台。我们希望提供这种大规模的全在线的,也是开放的一种持续环境,让每个同学都能够通过浏览器,非常方便的去做实训和练习,这是我们当时做这个事情的一个理念。



MOOC的一些特点,比如说大规模、在线,这是新工科实训的需求;开放,这也是我们教育里面谈的比较多的,很多东西希望能够开放出来;教育信息化,利用目前比较流行的或者新的云计算,或者互联网的一些技术,甚至以后还可以形成一些智能化的交互学习,后面是可以去探索的。


有了这个理念以后,我们就开始做建设。怎么建?一开始,因为我们还是有科研力量的,我们也是组织学生去搭Hadoop,去搭Spark那些东西,但是我们发现那套东西还是有非常大的问题。第一,即便你能够搭起来,它的日常维护是需要非常多的一些精力,而且不是一般的同学能够做的,目前看起来是需要借鉴企业,而且我们在整个市场上做了一些调研,最后发现星环正好那个时候也是在推大数据平台,并且他们的整个规范和兼容性都是和我们Hadoop和Spark那套生态是一致的,我们当时就跟星环取得了一个联系,正好他们也非常感兴趣,就提供了我们一些免费的软件平台,帮我们学校去建立这样一个平台。


课程实验平台建设。星环的硬件设备刚才已经介绍了很多,我估计一会儿还会给你们介绍,我觉得确实挺好的,这是四台服务器,里面有36块硬盘,是一个挺好的平台。我们在上面做了一个课程实验的建设,大家可以看到我们把很多的实验放上去了,比如说派送实验,R实验,数据挖掘,机器学习的一些实验,以及整个的一些案例,我们通过在线的方式,让学生可以去做练习。我们的这套平台下个月就可以上线,下学期就开始融入到我们平常的课程当中去。这个平台,简单来说就是教师端,有整个实验的管理,学生端也是有查看实验,包括实验指导书,算法演示这些相关的东西,平台管理主要就是一些资源管理、作业管理、虚拟机管理、服务器管理。



因为我们希望做一个公共平台,无论你需要什么样的实训环境,我们都能提供,而且因为星环是基于TOS的,基于容器的一个环境,确实也是能够支持。如果你是需要R,我们提供R环境。如果需要MATLAB,我们提供MATLAB环境。如果需要Hadoop,我们一键提供Hadoop环境。这样有什么好处?就可以避免我们学生无休止的去搭Hadoop以及那些细节,我们就可以一键生成Hadoop环境、Spark环境,这样学生可以专注在上面做应用,做开发,真正去玩数据,这个是当时我们的一个想法。



除了这个以外,其实还有很多算法库,还有一些案例库,这也是当时星环提供给我们的,因为他们有很多业务,有很多金融里面的案例,有很多交通里面的案例,当时他们给我们提供了很多的案例,我们对案例做了一些模拟数据以及简化,就可以形成我们教学里面很好的一些案例了,包括一些实际的数据资源。


我们的两门课程里面大概会用到2个实验模块,有17个子模块,113个实验,这是我们当时做了一个设计,详细的大家可以后面去网上看一下,里面主要是Python、R、Hadoop、Hbase,以及案例相关的一些内容。


我们整体的呈现形式就是这样,就是通过网页。打开浏览器,左边就是实验教程,右边就是你的实验环境,如果你要做R实验的话,它右边就是一个R环境,如果你要做SQL实验,右边就是一个SQL环境,如果做Hadoop的话,就是一个Hadoop的环境,然后可以有很多的功能菜单,你可以启动,你可以暂停,也可以截图,然后你可以写实验报告,这个我们当时也是考虑了。



这是一个几秒钟的演示。实际上就是这样,学生可以边看左边的实验指导,同时在右边去写代码,然后可以做实验,可以发现运行结果,可以和左边的内容一致。这不像我们传统去输入去敲,也省去了学生去部署或者是安装各种各样软件的麻烦,这就是和我们星环的理念是一样的,所有的东西都是在云上进行,而且这还有一个好处,学生的所有实训数据,我们都可以拿到,可以给学生做一些评估,甚至是一些教育大数据的智能化的分析,这个还可以做科研。



我们希望把这个平台做成一个通用型的,而且是在它的TOS之上,现在我们在做2.0版本,希望能把这个平台做好之后,让其他的学校也能够用到这样的一个平台。然后我们还协助星环在做课程的开发,还会计划和星环做联合师资培训,比如使用我们的实训平台,星环的一些产品,本身我们还在一起做同济大学自己的实训平台,因为我们也申请了大数据和数据科学的本科专业,我们也在做专业建设,我们也希望能够做一些实训基地。


如果大家关心的话,会发现星环的社区版也刚刚出来,这是一个好消息,是可以免费下载使用的,Hadoop是免费的,星环的社区版同样也是免费的,而且用作教学应该足够了,如果高校想去部署实验环境,可以直接用。我们现在也希望能够参与,和星环参与TDH免费版的社区建设,我觉得这也是一件挺好的事。


点击或回复关键词,查看相关内容

公司

简介 | 星环科技成长大事记 

投资 | 星环科技获腾讯领投2.35亿C轮融资,与腾讯云达成战略合作


产品

产品 | 星环的划时代版本-Transwarp Data Hub 5.0

TDH社区版 | TDH社区版提供官方下载

评测 | 大数据产品最新测试基准看哪家(TPC-H or TPC-DS)?

流式计算 | 用Slipstream构建复杂事件处理应用

Holodesk | 业界最强的SQL引擎Inceptor为何这么快?

培训 | 学完这些课程,你也是大数据专家了!

认证考试 | 数据中心联盟—星环联合认证体系首次认证考试报名中


技术

技术 | 原创技术干货大合集!

技术支持 | 最完整的星环技术支持体系

评测 | 大数据产品最新测试基准看哪家(TPC-H or TPC-DS)?

TED视频 | TEDxLujiazui精彩视频:【大数据 大趋势】

白话大数据 | 白话大数据合集


案例

银行 | 河南农信:数据辅助决策,决策引领创新

证券 | 中泰证券:剑指大数据处理 多券商革新IT架构

智能金融 | 星环科技发布证券业大数据战略规划纲要(白皮书)

运营商 | 运营商的新方向-运用Hadoop技术将大数据资产变现

交通 | 大数据在智慧高速中的创新应用

物流 | 星环Hadoop发行版助快递业迎战“双十一”

邮政 | 中国邮政大数据平台建设

税务 | 大数据提升税务系统核心能力

审计 |让数据成为竞争力

视频监控 | Hadoop大数据在实时视频监控的应用场景

广电 | Hadoop企业级应用新添重磅案例

电力 | 华南某市供电局全景可视化大数据平台案例

能源 | 厉害了,我的营销大数据!

智能工厂 | 大数据技术助力中国石化智能工厂

农业 | 农业大数据的研究与实践

医药 | 医药产业链大数据前沿探讨




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存