查看原文
其他

顶级赛事!交大学子拿下全国一等奖!



  • 祝贺

近日,国产智能算力与AI应用领域一年一度的顶级赛事——“先导杯”计算应用大奖赛第四届全国挑战赛在太原落下帷幕。这项赛事的特色是要求使用国产曙光DCU加速卡,进行应用移植和优化。上海交通大学网络信息中心教师带领交大超算竞赛队参赛,在网易玉言大模型性能优化赛题的比拼中,经过三个月的紧张备战和两轮激烈竞争,最终从71支队伍中脱颖而出,荣获全国一等奖(唯一)!

01


比赛详情


“先导杯”计算应用大奖赛自2020年举办以来,吸引了清华大学、北京大学、上海交通大学、复旦大学等知名高校院所3000多名学生参加。本届比赛提供多个赛道,交大参赛队伍选择了当下最热门、难度最大、综合性最强的大模型赛道——网易玉言百亿参数大模型性能优化赛题。这个赛题要求在三个月内将大模型推理引擎从英伟达GPU移植到国产曙光DCU上,并进行性能优化,从而为国产大模型的硬件适配提供更强的自主可控性。

曙光DCU是国产高端GPU,与英伟达GPU架构不同、软件生态差异大,应用移植门槛较高,这无疑为参赛队伍带来了极大挑战。在应用移植过程中,首先遇到的挑战是使用官方提供的推理引擎无法直接运行大模型,因此必须由参赛队手动进行移植。经过数个昼夜的奋战,队员们顺利完成了上万行代码的移植工作。期间,队长张洪健还敏锐发现了大赛官方开发套件存在的问题,并完成了相应修复工作,得到大赛主办方的认可,为下一阶段的工作排除了隐患。

进行性能优化时,其他参赛队伍选择使用多张DCU卡进行并行优化,而交大参赛队独辟蹊径,以少胜多,仅使用一张DCU卡就达到了比多卡更好的性能,充分发挥了单卡性能,极大节省了算力资源。队员们首先尝试多种方案将模型大小压缩到原来的四分之一,降低显存消耗。随后,又对多个算子进行深度优化,提高显存带宽利用率,其中矩阵乘法算子相比官方BLAS数学库,性能提高了2倍以上。

最终,交大参赛队伍的单卡方案战胜了其他队伍的多卡方案,摘得桂冠,展现出过硬的优化功底。此次比赛中,队员们将有限算力资源利用到极致的思路,与网络信息中心长期以来的做法保持一致:充分挖掘“交我算”校级计算平台的潜力,服务全校科研、教学和管理工作,精益求精、持续改进、不断升级。

02


交大学生超算竞赛队



网络信息中心自2014年起组建了一支学生超算竞赛队,由中心教师带队指导,依托“交我算”校级计算平台提供强大的算力支撑,融合吸纳了全校计算机、软件工程、人工智能、物理、海洋、生物医学工程、工程力学等专业学生。短短数年内,在被称为“世界三大超算竞赛”的亚洲ASC、德国ISC、美国SC赛事上,屡次登顶最高领奖台!

目前,该支队伍由30余位不同专业背景的学生组成。本次参赛队员为电子信息与电气工程学院优秀研究生张洪健、王旭东、向颖谦、唐鹏,以及本科生李帅衡。指导老师为网络信息中心于潇雪。

此次获奖不仅是对参赛队员们辛勤努力的认可,也为他们之后的学术研究和职业生涯发展打下坚实基础。特别是在我国AI产业发展面临极大算力挑战与人才缺口的背景下,通过以赛促学、以赛促教的方式,能够进一步推动国产异构计算软件开发适配与人才培养,助力国产自主可控技术进步与创新。

03


参赛感言


在这次先导杯中,第一次使用曙光DCU加速卡完成大语言模型推理部署与优化,深入研究了DCU的架构和指令集,对我以后在高性能计算领域有很大帮助。

——张洪健


这次比赛为我们提供了一个珍贵的机会,体验国产加速卡的计算性能。同时,它也是一次推理框架移植和性能优化的具体实践,为我们带来了宝贵的经验和收获。

——王旭东


因为之前做过算子优化的工作,同时想学习了解国产GPU的架构所以参加了比赛。感受就是对推理框架、算子优化等方面的理解得到了加强。

——向颖谦


通过参加本次的比赛,不仅了解了国产GPU加速卡,也增强了自己在大模型优化推理方面的能力,学会了如何充分发挥硬件性能来提高计算速度。

——唐鹏


通过此次比赛,我第一次尝试了矩阵乘法的细致优化,积累了许多有关模型移植以及算子优化的经验,同时也对曙光DCU的架构和指令有了更加深入的了解。

——李帅衡


#推荐阅读

1、网络信息中心“交我算”走进院系之生命科学技术学院专场活动顺利举行

2、SA新功能,学院行政服务应用上新啦!

3、“WPS开启办公新模式”专题培训成功举办!

4、校级正版软件授权中心介绍

                                                                                        责任编辑:汪浩淼



继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存