高校算力中心如何可持续发展?
日前,一场以高校高性能计算建设为主题的会议召开。会上,各高校专家围绕高校算力中心如何可持续发展这一问题展开讨论。
用好算力中心是长远发展的关键
在算力需求逐渐攀升,高性能计算越发受到重视的当下,高校获得第一桶金建设自有的超算中心已不再成为难题。然而,在第一桶金后,第二桶金、第三桶金是否还能继续跟进?超算中心能否可持续、高质量、始终如一地发展下去?依旧是摆在超算中心工作人员眼前的难题。
上海交通大学原高性能计算中心主任顾一众表示,高校超算中心如何可持续发展是他们十几年来一直在考虑的问题。在高校对算力需求持续走高的形势下,第一桶金的获取难度并不大,算力中心的创建只是技术上的问题,而不是资金上的问题。但建成后,如何使中心发展得更美好,这就需要一种可持续的机制。而如何把算力中心用好,可能是决定其能否可持续发展的核心,也是他们努力的主要目标。
他强调,使机器用满不难,但如何高效使用机器却并不容易。如何把资源放大,使算力中心的效率提升到最高,使高校或政府的投入达到最佳收益,这是大家应当关注的焦点。比如有些用户开发运行的软件效率不高,浪费了大量的计算资源,而这就需要超算中心的工作人员去帮助用户优化软件和运行环境,提高计算效率。通过自身努力让本来只能支撑10个用户的算力,去支撑20个甚至更多的用户。
同时,除资金之外,人才也是中心可持续发展的核心要素。顾一众表示,上海交通大学校领导充分重视计算人才队伍建设,给予超算中心有力支持,使中心有人力和能力为各学科用户提供贴身细致的服务,提升用户的使用体验。
此外,他表示超算中心的可持续发展,离不开校领导的支持和用户对服务的认可。对于交大及同类型高校来说,有了这两个方面,资金就不会成为明显的阻碍。因此,长期投入的问题就转变为如何通过中心努力,助力学校多出高水平成果,培养更多高质量人才。从而以自身作为让学校满意,更有力地支持超算中心的可持续发展。
想清定位才能避免存在危机
华东师范大学计算中心主任郑骏认为,定位准确对高校算力中心十分重要。他表示,作为算力中心,一定要考虑自身是定位于用户服务,还是定位于科研。对于中小型高校的算力中心来说,如果定位于用户服务,而欠缺强势的专业能力,那么随着未来网速、带宽的增加,随着国家超算中心的增加,随着通信技术的发展,其自身存在可能受到明显威胁,中小型高校算力中心的生存空间也可能会受到挤压。
以上海超级计算中心为例,如果公共超算平台能完全满足校内的算力需要,那么中小型高校算力中心的存在是否还有必要?为了预防这一问题,他建议中小型高校的超算中心一定要对超算领域技术进行研究,有拿得出手的成果,有自己写出的高水平期刊论文并尝试对超算领域做出贡献。
虽然用户服务的重要性无可厚非,但中心人员的个人能力如何继续提升也是重要问题。所以他认为,在国家一次性投入如此巨大的状态下,算力中心可以考虑深耕科研,在用户服务之外,钻研超算领域的技术,培养一支科研能力、服务能力俱佳的人才队伍。
上海超级计算中心主任李根国表示,高校算力中心需要有自己的研究方向,也可与自身的优势学科相结合,提升中心的科研能力。而上海超算中心作为政府支持的公共服务平台,其特色和定位就是用户服务,因此要在服务上不断打磨,不断自我超越。
据他介绍,上海超算中心共有两个重要团队,一个是机器选型的团队,一个是代码撰写的团队。机器选型的团队需要在机器方面进行深入研究,调查哪种类型的机器最适合中心运行,最适合不同类型的学科和应用,这样在机器选型的过程中,中心就有一定的发言权和选择权。
而代码撰写的团队则要结合用户需求和实际应用,帮助用户撰写代码。当下,大部分用户都在使用开源代码,但是,如果国内70%到80%的用户都能具备自己撰写程序代码的能力,那就说明学科发展和超算发展都达到了蒸蒸日上的状态。他表示,希望上海超算中心能担负起这个重任,帮助用户一同撰写代码,这是中心应当追求的境界。
参与科研才能收获更多关注
清华大学高性能计算研究所高级工程师张武生表示,超算平台是否可以长远发展,根本上取决于能否得到校领导的长期支持。虽然各高校具体情况不同,但总体架构应当类似,有校领导主管超算中心,也有相应的资产部门。在超算中心起步时,必须面对来自校领导的提问:中心到底能帮助学校解决多少问题?这一问题就是一切的关键。由于算力中心建设成本、运维成本都十分高昂,如果没有显著成果支撑,校领导对于后续投入的意愿也不会十分强烈。
因此,清华大学算力中心的重要任务之一就是想方设法帮助师生解决问题,帮助他们快速、高质量地产出科研成果,使科研过程更为顺利。而在论文发表时,也要争取让师生在论文最后列上中心的名字。通过这些努力,叠加上一段时间的积累与正反馈的迭代,学校会逐步认识到中心的作用,认可中心的存在,中心在校内的头衔、地位与级别也会逐渐提高,得到的支持也就更有保障。
同时,张武生进一步强调,超算中心人员,尤其是较为年轻的人员,一定要想办法参与到课题组的科研中去,要有开发科研计算代码的能力。一旦能帮助科研人员解决代码方面的问题,那么虽然依旧不算科研岗位的人员,但其自身地位会非常稳固,绩效评价也有所保障。
他举例表示,2020年初,清华有一位教师进行了新冠病毒传染途径的研究,即通过分析某一国家的机场数据,预测人流量与传染速度之间的关系,并自己建立了数学模型。虽然数据量并不是非常庞大,但计算运行一周后还是无法得出结果。于是中心人员查看了原始代码,发现教师从纯数学角度去写程序,代码的时间复杂度非常高,所需时间就会很长。
因此,中心重新调整、撰写了程序,一天时间内就得出了多个结果,有效加快了论文发表的速度,也赶上了新冠疫情的论文热点期。而这位教师也在很多场合宣传了中心的工作,表扬中心人员所提供的帮助。所以,为了应对此类情况的出现,算力中心人员必须具备一定的代码开发能力。
通过多种方式培养人才留住人才
中国科学技术大学超级计算中心副主任李会民表示,科大算力中心的定位是提供技术支撑服务,全心全意帮助师生用户解决问题,帮助他们优化程序、构建算法,从而发表更多论文,而非自己单独进行科学研究。也就是说,中心人员的使命是在维护好平台的前提下,帮助校内师生用户去发Nature、Science,而不是自己去发Nature、Science。
而高质量论文的产出离不开高水平人才,因此,他亦强调了留住人才、挖掘人才的重要性。
他表示,由于高校科研岗比技术支撑岗待遇更为优越,而比起高校,IT人才在企业的薪资待遇也往往更高,所以算力中心的人才流失问题非常严峻,人才结构也有进一步优化的空间。
为了解决人才流失问题,加强人才队伍建设,科大制定了相应的人才政策,出台了技术支撑绩效管理办法。例如,中心到账经费的30%都会被用来作为人才奖励,希望借此激发中心技术支撑人员的积极性、主动性与创造性。他表示,一年投入50万购入新设备,不如一年投入50万去招揽新的人才,人才所带来的收益将远远高于设备。因此,算力中心一定要想办法建立合理的绩效晋升体系,想办法留住人才。
此外,为了提升中心的曝光率,形成良好的口碑效应,科大还设置了专门的超级计算专家组,这一组织由不同学科的重要计算用户与计算机专家组成,作为超算与学科之间深度沟通的桥梁,为中心发展提供重大决策指导。他特别指出,如果中心能为专家提供优质服务,反过来,专家也会凭借自己的影响力宣传中心工作,在涉及资源分配时,一些校内地位较高的专家也能帮助中心争取一些资源。因此,高校算力中心也应与专家密切合作,提升中心的知名度与美誉度,为长远发展奠定良好基础。
撰文:王雅静
责编:陈永杰
投稿或合作,请联系:eduinfo@cernet.com
往期推荐
关注我们 了解更多↓
更多精彩视频推荐
欢迎分享、点赞、在看
积极留言还会有惊喜好礼哦~