超算云,云超算,谁才是高性能计算云端化的明天?
在数据驱动、万物互联的今天,高性能计算(High Performance Computing,简称HPC)已经从往日遥不可及的国之重器,逐渐飞入寻常百姓家,在高科技企业、科研机构、高校等地普及。
相比高性能计算,可能超算更为普罗大众所熟知。我国的“天河二号”、“神威太湖之光”都曾跻身超算Top500前列,证明中国是名副其实的超算大国。
图1 // 天河二号超级计算机/图片来自源于网络
严格来说,超算和高性能计算并不是相同的概念,但由于两者都代表着远超普通计算机的算力与应用,在很多领域也有重叠,因此人们在实际使用上对二者并不进行严格的区分。
实际上,高性能计算虽然是一个国家科技硬实力的顶尖表现之一,但它并不是一项全新的学科,它的出现甚至可以追溯到近百年前。在20世纪60年代,高性能计算领域迎来第一次发展浪潮。自此以后,高性能计算(或者说超算)就与航空航天、高端制造、生命科学、芯片设计、土木建筑等行业结下不解之缘。不过,此时的超算的传说大多在硬科技领域流传,直到人工智能的引爆。
有人的地方,就有人谈论人工智能
倒退回10年前,大多数人对于人工智能的理解还停留在科幻电影里。即便是2014年,首次向世人演示Machine Learning机器学习的NVIDIA CEO黄仁勋先生大概也没有想到短短几年之后,人工智能、机器学习、深度学习已经风靡IT行业乃至整个世界。必须承认,GPU的出现推动超级计算机从单一的CPU结构迈向了异构时代,更为机器学习以及人工智能的研究打开了一扇崭新的大门。
实际上,GPU对于人工智能领域最大的影响还不止于此。更为关键的是,GPU的出现正在推动着传统超算的普及与应用的大众化。原本专属于科研院所与顶级大企业的超算,原来只应用于国防、航空航天等高精尖领域的人工智能,已经下沉到智能手表、智能音箱、自动驾驶这些民生日用等方面。
然而,随着超算的快速普及,超算资源的稀缺与分布不均衡也日益明显。即便GPU的出现与性能快速迭代已经让超算性能大幅度提升,但一向以私有化与集中化为特点的超算,其高昂的硬件成本与场地、人员、维护等开支,也确实让很多中小型的研究机构与企业只能望而兴叹。即便是高规格的研究机构与大型企业,其本地化超算设备也越来越难以满足疯狂增长的计算需求。就在不久之前,全球顶级的人工智能研究机构OpenAI推出了超巨型的NLP训练模型GPT-3,其单次训练成本高达1300万美元,以至即便OpenAI发现在训练过程中出现了bug,也只能将错就错。接受了微软10亿美元注资的顶级科研机构尚且如此,其他研究者面临的窘境可见一斑。
于是,有些拥有冗余超算资源的机构开放了自己的平台面向社会提供商业化使用。多年之前,就有国家级超算中心或其他超算资源单位开放自身的计算节点给特定的单位,让他们以网络传输的方式使用自身计算资源。虽然在当时甚至还没有普及“云“这个概念,但这确实就是超算云的雏形。随着技术的发展,”云“概念的兴起,这种模式依靠低廉的使用成本获得了一定普及,这种超算中心开放计算节点,让用户通过网络连接的方式获得算力,并按使用时长计费的服务被称为”超算云“。
在“超算云“这种模式中,缺乏算力资源的单位不需要投入大量的前期成本就能够获得充足算力;拥有大量冗余算力的超算中心摸索到了苦苦寻觅的商业化模式,不失为一件双赢的事情。但这件看起来似乎是天作之合的好事在实际执行中却困难重重。
这其中要解决的问题基本分为以下几个层面:
1、资源弹性层面:超算云的算力资源都来源于超算中心的物理设备,受限于超算中心的设备规模与任务情况,用户在使用超算云资源的时候经常需要排队。而超算中心的建设周期比较长,因此不管是设备数量还是型号,基本上不存在弹性扩展的余地。在这一点上,“超算云“与自采的物理机房基本面临一样的尴尬——闲时算力浪费,峰值算力不足;
2、数据传输层面:由于需要使用超算中心的共享带宽,使用方与超算中心之间的数据传输速度一直深受诟病。高性能计算涉及的数据量往往都是“TB“级,超大的数据传输需求与低速的传输速度导致的后果就是据传输中的时间消耗远远超过计算时长。
3、使用难度层面:如果说前两项围绕设备与技术的“物“的层面的问题,还能够通过增加成本来解决,那么使用难度的问题可能是最不好解决的,因为这主要是”人“的问题。超算云提供的通常是一个统一的算力提供接口,至于怎么使用,还是要看用户自身。用户在使用超算云的时候,必须自行安装与部署需要的环境与软件,自行对上传算例进行编程和调优。而超算云的用户涉及到生命科学、人工智能、智能制造、土木建筑、芯片设计等各个行业,他们的应用场景和使用软件天差地别,唯一的共同点大概在于对使用者的要求。他们既需要对本专业有着深厚的造诣和见解,也要懂得如何将科研问题转化为计算机语言,然后再通过超算云进行计算。
也就是说,要用好超算云,前提是使用者必须是一个同时钻研计算机语言与本专业知识的复合型人才,而这样的人才注定是稀缺的。
在AI时代,高性能计算的需求已经越来越普及化。在这种趋势下,需求方对于高性能计算服务提供商的要求也必然越来越多,这些要求会集中在以下方面:
1、充足的计算资源:充足即是指数量,也是指类型。能满足用户包括CPU、GPU、TPU等在内的多种资源需求;
2、较低的单位成本:由于高性能计算相关的基础设施的大规模建设,单位成本降低已经是必然趋势;
3、弹性的使用方式:让用户可以按需使用,既不用排队等待,也无需闲置成本;
4、高速的传输网络:减少数据传输的时间损耗,同时提升传输的安全性;
5、更方便的使用模式:提供针对行业的部署解决方案,预集成行业通用框架及软件,让使用者可以开箱即用,将关注点集中在 专业方面即可。
按照这五点需求来对比,目前的超算云仅在第二点相对有优势,而在资源弹性和使用模式方面则远远不能满足用户的需求。那是否能够同时满足这五点的高性能计算服务呢?
有!那就是以公有云为基础的“云超算“。
没有超级计算机的“云超算“
前面有提到,高性能计算与超算并不是一个概念。但由于二者有诸多共同点,也导至很多人误以为高性能计算就是超算,也必须要基于超级计算机。事实上,虽然由Atos、IBM、Cray等公司生产的超级计算机是众多专用高性能计算(HPC)系统的核心,但一种更广泛使用的方法是将多台小型计算机集成到互连的集群中以提供高性能计算(HPC)功能。在这种系统下,集群中的每台计算机都充当节点。每个节点通常配备有多个处理器(称之为计算核心)用于处理计算任务。每个节点内的处理器、图形处理单元(GPU)和内存资源相互连接以创建高性能计算(HPC)系统。在以前,人们经常利用集群计算或是网格计算的系统来集合大量独立的计算机,完成复杂的计算任务。
而在云计算越来越普及的今天,以公有云为基础,提供优良的系统管理、高带宽、低延迟的高性能计算平台,无论是在算力资源、使用成本还是在机器性能方面,都达到了超算云的水准。而在超算云的弱势如弹性扩展、使用方便等方面则完胜超算云。为了便于区分,我们将这种平台称为“云超算”。
2020年3月,《Nature》杂志上的一篇论文提到,哈佛大学医学院(HMS)的研究人员使用了VirtualFlow的开源药物发现平台对超大规模化合物库进行基于结构的虚拟筛选。他们通过整合使用云超算,将完成10亿级别的化合物分子筛选的时间从475年缩短到了15个小时!
这个实验证明了在大规模虚拟筛选中用云超算代替本地物理计算的的方法即具有成本效益,又具有高度灵活性,而且对最终结果没有负面影响。
不仅在哈佛大学医学院,也不仅仅局限于分子筛选领域。云超算在北卡罗来纳大学教堂山分校、英国约克大学等世界名校都在快速接受云超算,并将其应用到生物学、物理、化学和计算机科学等科学系以及语言学和其他几个学科的研究工作。
而在国内,也有越来越多的高校、科研机构以及高科技企业开始应用云超算处理复杂的计算任务。
国内弹性算力技术领导者云端软件推出的云E弹性算力平台就是国内“云超算“赛道中的佼佼者。
云E弹性算力平台基于AWS、阿里云、谷歌云等全球五大主流云厂商构建独立虚拟资源池,在全球拥有25个地域节点,超过10万台计算资源。能为用户提供单 GPU 节点可达8卡的业界顶级 GPU NVIDIA Tesla V100等资源。云E 最大的特点就是可以实现客户需求的按需调整,无论是多一些计算还是少一些节点,用户都可以动态调整,随时满足需求。
在软件及应用层面,云E预集成TensorFlow、Pytorch等超过200多种主流框架或软件,覆盖了生命科学、模拟仿真、人工智能等各个领域,开箱即用,让使用者只需专注于专业本身,无需再为硬件设备的配置及部署费心费力。
除此以外,云E提供云超算SaaS、混合式企业HPC平台、一体化HPC交付方案三种版本灵活部署与交付,实现人工智能行业全场景适用。
海量的计算资源、便捷弹性的扩展方式、大范围的商业应用软件集成、先进的自动化作业流程,这些内容整合在一起,就构成了云E弹性算力平台,也是云端软件所倡导的“云超算”概念之所在。云端相信,随着云计算的进一步深化,“云超算“的优势将会越来越明显。在已经到来的算力之争中,”云超算“也必然成为高性能计算云端化的最佳选择!
关于云端
深圳云端软件有限公司(Cloudam)是弹性算力与云成本优化的技术领导者,为企业打造一站式的算力云平台及自动化云成本优化服务。云端软件推出的云E算力平台整合了全球主流公有云近50个地域的高性能计算资源,能为人工智能、仿真模拟、生物科技、材料化学等行业提供弹性、高效、经济的算力支持。
Cloudam成立于瑞典斯德哥尔摩,在深圳及斯德哥尔摩两地运营,团队核心成员来自于Oracle、Ericsson、IBM、华为等知名企业,拥有15年以上的世界500强企业技术服务经验和研发背景,已成功为欧洲及中国多家企业提供产品和技术服务。
分享、在看与点赞
了解更多高性能计算与云的知识