CCCF:李国杰 | 发展数据学科应在何处发力?
数据思维的核心是统计和归纳,通过经验的积累发现知识。但机器学习等大数据方法有本质的局限性,需要结合科学假说与演绎推理。从科学研究的方法论考虑,数据科学也需要与其他学科密切协作。
本期译文栏目刊登了Berman教授等多位知名学者在CACM上发表的一篇重要文章:“实现数据科学的潜能”。这篇文章在一定程度上反映了美国国家科学基金会 (NSF) 计算机和信息科学与工程局 (CISE) 对发展数据科学学科的看法。2018年3月,教育部批准248所高校设立“数据科学与大数据技术”专业。虽然中美两国对涉及大数据的学科专业名称不完全一样,但美国学者讲的Data Science学科的实际内容也包含大数据技术。
一年之中,全国200多所高校同时增设一门新学科专业,在我国学科建设史上是少见的,说明培养大数据人才是国家的急需。过去我国许多高校也曾一窝蜂地新建了“软件工程”“物联网”等新学科专业,但现在又有不少学校撤销了“软件工程”学科,其原因是我国的学科建设主要考核一个专业有多少戴“帽子”的人才,发表了多少文章,承担了多少国家项目等可量化的指标,新增的学科往往在“指标”上没有竞争力。为了避免走“软件工程”学科的老路,在“数据科学与大数据技术”专业新建之际,我们必须考虑:发展数据学科应在何处发力?
鄂维南院士认为,数据科学包含两方面内容:用数据的方法来研究科学和用科学的方法来研究数据。我想,大数据技术的学科内容也应包含两方面:一是如何以信息技术收集、传输、处理、存储和显示大数据;二是大数据技术如何在各行各业中发挥作用。教育部设立数据学科的目标也是培养具有较强的实践创新能力、跨文化交流能力和跨领域研究能力的高素质复合型人才。跨学科是数据科学技术的主要特点,培育数据学科的发力点就在跨学科协作上。
数据科学和大数据技术学科尚处于初级阶段。国外的数据科学专业也在探索之中,数据科学项目正在计算机科学、信息科学、统计学和管理学等部门和学院中进行,不宜过快地将数据科学“标准化”,而应努力探索课程、师资、项目和合作关系的各种方式。重要的是弥合数据生命周期中各种技术和知识之间的间隙,填补计算机科学与其他学科之间的鸿沟。
我国过去学科建设的弊端是太看重一级学科的名头,太看重学科与博士生名额指标的关系,对科研与企业真正需要什么人才不太上心。由于太关注资源的占有,不同学校的相同专业,同一学校的不同专业都是零和竞争关系。发展数据学科一定要改变这种不良的生态。数据科学研究和教育的成功都取决于数据基础设施和有用数据集的共享,任何一个学校、任何一个院系都无法提供足够的数据资源,必须全校一盘棋甚至全国一盘棋,共同构建必要的数据基础设施。
数据思维的核心是统计和归纳,通过经验的积累发现知识。但机器学习等大数据方法有本质的局限性,需要结合科学假说与演绎推理。爱因斯坦在评价数据科学的引路人、天文学家开普勒时说过:“知识不能单从经验中得出,而只能从理智的发现同观察到的事实两者的比较中得出。”从科学研究的方法论考虑,数据科学也需要与其他学科密切协作。
作者介绍
李国杰
· 中国科学院计算技术研究所首席科学家
· CCF名誉理事长、中国工程院院士
2018中国计算机大会(CNCC2018)
[早鸟票]优惠进行中!
2018中国计算机大会(CNCC2018)将于10月25-27日在杭州国际博览中心(G20会场)举行,大会主题为「大数据推动数字经济」(Big Data Drives the Digital Economy)。届时将邀请十余位国内外计算机领域知名专家、企业家到会做特邀报告。同时还有60场技术论坛,20场活动,100个展位。
更多信息详见大会官网:http://cncc.ccf.org.cn
即日起至9月21日,报名且缴费成功即可按优惠价格参加CNCC2018! CCF会员参会、参展可享优惠。
请扫描二维码报名参会
咨询电话:010-6260 0336 邮箱:cncc_pr@ccf.org.cn
中国计算机学会
微信号:ccfvoice
长按识别二维码关注我们
CCF推荐
【精品文章】
点击“阅读原文”,加入CCF。