查看原文
其他

国内超算发展近40年,终于遇到了一个像样的对手

灵魂工作室 速石科技 2020-12-18


超算,国家队出身,服务于国家级别的科研项目,也是一个国家科技发展水平和综合国力的标志之一。1983年,中国研制出第一台超级计算机银河一号,成为继美国、日本之后第三个能独立设计和研制超级计算机的国家。

全球超算TOP500排行榜就属于各个国家秀肌肉的典型比赛,每年两次。

云计算,天生互联网基因,为追逐商业利益而生
2006年,AWS正式对外开放。
2010年,阿里云正式对外。中国开始有了云计算。

超算近40年,云计算10年。
超算开始走下神坛,对外开放了一些商用的入口。比如我们找到了用“天河二号”来渲染某些群众喜闻乐见的动画片的证据——

而飞速发展的云计算,甚至让超算界逐渐有了“云超算”或者“超算云”的发展趋势。

2019年11月,我们只花了5000美金,用4个小时调用云算力跑进了全球超算TOP500榜单,成为全球第二、亚洲唯一一家完全用公有云算力跻身超级计算机榜单的公司。详情参考:上榜啦~花费4小时5500美元,速石科技跻身全球超算TOP500

超算发展了那么多年,终于遇到了一个像样的对手。


超算中心跟云计算中心到底有什么区别?普通人怎么使用超算?用超算工作是怎样的一种体验?对于HPC(高性能计算)用户,云服务商和超算中心谁更有优势?……
我们对国内超算中心和云计算中心进行一番全方位的对比,有以下结论:
1、超算总节点数不超过10万,云服务器总规模超过100万;2、大部分超算资源不对外开放,云资源完全商业化,只对单个用户有配额限制;3、超算提供基于传统HPC场景的一整套垂直方案,云基于IaaS层提供丰富的产品和服务种类供用户选择;4、使用超算和云资源,对用户来说,各有各的难度;5、超算只有排队作业和独占节点两种计费方式,云一般有按需、预留、竞价实例三种,使用灵活性和弹性高;6、超算申请步骤繁琐、审核麻烦、商用昂贵,云几乎没有门槛;7、超算的平均硬件更新周期一般为数年,而用户能够以最快的速度在云端体验最新硬件;8、云拥有完整的第三方合作伙伴生态来更好地服务客户;9、超算正在尝试向云靠拢。

我们有一份2020年新版《六大云厂商资源价格对比工具包》以及一份在撰写本文过程中收集整理的国内超算整体数据信息,欢迎文末扫码添加小F微信获取~


以下是对比正文

整体规模


主要包含三个指标:总规模、可用规模短时最大可调用规模

1、总规模
我们盘点了中国已落成的主要超算中心的总节点数量,总数为54588个,其中未包括一些正在建设中的超算中心,以及小型超算中心。

即便加上这些数量,中国超算中心的总节点数量级也未过十万

那么国内主流云厂商有多少台服务器呢?
虽然各大云厂商并没有公开自身的服务器总数,但我们可以从其可用区的数量来进行推算。可用区的概念是一个数据中心群,通常包含若干个超大规模数据中心。

2018年6月,阿里云宣布已在全球18个地域开放了44个可用区,当时国泰君安出的投研报告估算其服务器总量超过50万台,即单个可用区约有1.14万台服务器。
如今阿里云在全球共有63个可用区,其中国内有41个。可推算出阿里云在全球约有71.5万台服务器,国内约为46.5万台

根据IDC公布的中国公有云市场份额占比,阿里云以46.5万台服务器抢下了超过40%的市场份额,我们据此反推出国内云厂商的服务器总量超过116万台,与超算中心完全不在一个数量级,可以看下图感受一下差距。

2、可用规模

传统超算中心是典型的圈地自萌,各个中心之间互不相通。
而云计算中心的各个可用区之间是可以打通的,甚至还可以在不同云厂商之间通过API调用打通使用,这意味着云计算中心的可用规模约等于其总规模

超算中心需要保障有充足的算力供给国家级科研项目,通常只会拿出少量的资源对外开放,且对单个用户申请的资源上限进行严格审核,如国家超级计算长沙中心规定单个用户最多使用100个节点,不到其节点总数的5%。

云计算中心对于单个用户也有类似的限制,称为“服务配额”,该配额根据账号的使用情况与可用区的实际情况而定。
跟信用卡额度有异曲同工之妙。
 
3、短时最大可调用规模
 
云计算的一大特色就是具备短时间内大规模调用海量计算资源的能力,这一能力已在各行各业经过了充分的验证。

前不久,哈佛大学医学院在《Nature》发布了VirtualFlow开源药物发现平台,称利用该平台调用16万个CPU对接10亿个分子仅耗时约15小时,而使用1万个CPU则需要2周,具体可戳这里:15小时虚拟筛选10亿分子,Nature+HMS验证云端新药研发未来
 

再看一般难获取的GPU资源。
2019年11月,SDSC圣地亚哥超级计算中心联合威斯康星州冰立方粒子天体物理中心在AWS,Azure和Google云上一共调度了超过5万GPU完成一次仿真模拟计算试验。
图片来源:IgorSfiligoi, SDSC/加州大学圣地亚哥分校

这次计算,基于云的集群提供了全球排名第一超算中心峰值90%的性能详情见2019-2020春江云暖你先知,CAE/EDA/高校等CloudHPC领域年均复合增长率超21%

超算并不具备这样的灵活性,我们将在后面的部分讨论申请超算资源的种种门槛。

超算中心与云计算中心在总规模,可用规模,短时最大可调用规模上均存在相当大的差距。


使用体验


如果说超算中心是套餐,基本都给你配好了;
云计算中心就是自助餐,想怎么搭就怎么搭。

超算中心面向的是典型的传统高性能计算(HPC)场景,基于大规模并行计算而设计的,在基础架构上进行了一定的适配,提供的是一整套垂直方案,这使得超算的专用性极强,而通用性则较弱,因此提供的产品与服务较为固定化。

而云则是基于IaaS层服务,更底层和模块化,提供的是层级丰富、类型多样的产品和服务软件定义的特点使其可以根据任务自由分配资源,在面对不同的用户时通用性更强,用户可以根据需要自行搭配使用。

我们将分为基础资源、附加服务、使用难度三方面来对比:

 
1、基础资源
 
基础资源包括计算资源、存储空间、网络带宽

超算的计算节点是影响性能指标的核心部分,过去的超算大多采用同构计算(由纯CPU组成计算节点),后来研究人员发现GPU在计算加速上优势巨大,于是不少超算开始采用异构计算(由CPU+GPU组成计算节点),其中CPU和GPU均可单独对外出租。
 
而云计算中心除了常见CPU和GPU之外,还包括FPGA和TPU,相比超算中心更为丰富。

传统超算中心的节点是物理机,几乎没有调整余地。
比如国家超级计算天津中心“天河一号”的节点配置为:双路12核,2*Intel Xeon X5670@2.93GHz+Tesla M2050,内存24GB/48GB
一张表就涵盖了整个超算中心能提供的所有的计算资源、存储空间、网络带宽。
 
长沙中心的基础资源则包括以下内容:


虽然相比天津中心有了更多的选择,但整体选择余地依然不大。
 
云计算中心主要提供的是虚拟资源,用户能够享受到更为丰富的计算资源选择。
如某公有云厂商的企业级云服务器ECS分为通用型、计算型、内存型、大数据型、GPU型、本地SSD型、高主频型、FPGA型、弹性裸金属九大类,其中每一种类型还可以选择与不同存储和网络的组合。

存储空间方面,可以选择20-500GiB不等的高效云盘或SSD云盘作为系统盘,单块数据盘最多则可配到32768GiB。


网络带宽的选择范围也很大,用户可以选择“按固定带宽”和“按使用流量”两种带宽计费模式,前者的带宽值可选范围为1-200M,后者的带宽峰值可选范围为1-100M。


综合计算资源、存储空间、网络带宽,云计算中心给用户提供了更多选择的空间。

2、附加服务

在基础资源之外,超算中心偶尔也会提供一些附加服务,但并不多见,如某高校超算中心为用户提供以下服务:


云计算中心提供的服务完全就是另一幅画风了,就看你想要什么吧。

3、使用难度

说起使用难度,超算中心与云计算中心各有各的难

在系统方面,主流超算大多使用Linux系统,对于许多习惯了图形界面操作系统的用户而言,存在一定的上手难度。
贴一张超算的实际操作界面,大家感受一下——
这种命令行界面对不少非计算机专业的用户可以起到良好的劝退效果。

另一方面,虽然目前的超算中心大多使用Linux系统,但几乎每个超算都会使用不同的系统版本,这就导致其命令行下的命令也会存在一定的区别,比如有些命令是各个发行版本定制的(如Red Hat的rhn_register命令是其独有的,其他版本不存在),一旦用户需要更换超算中心使用,就需要额外的学习成本。

相比之下,云计算中心就友好一些,以图形化界面为主。
而且,他们把选择权交给用户,提供丰富的产品和服务。

但是,问题来了。
云和本地资源的管理方式、部署模式和收费模式有很大区别,不同云厂商之间也有不少区别。

目前主流云厂商所提供的产品线已经相当完善,有不少面向行业的解决方案。但产品和服务数量实在是过于庞大,入口也很多,最终导致操作层面的复杂性。

而因为云上近乎无限的资源池总量带来的超大规模集群的调度和管理,是传统手动模式无法跟上的。

更不用说涉及到本地和云同时使用的混合云场景IT自动化管理,或者多本地+多云场景IT自动化管理,这些都对IT技术能力有很多新的要求。

因此,从基础资源,附加服务,使用难度而言,超算中心与云计算中心的使用体验也有很大差距。


计费方式


超算中心的计费方式主要有排队作业独占节点两种。

排队作业的意思是,付费用户的作业与其他用户的作业一起参与排队,用户作业所需资源具备时开始运行,用户需要按照实际使用的机时支付相关费用。
这意味着太紧急的任务接不了,因为你不知道何时能排到;太大的任务也接不了,因为等待合适资源的时间可能会非常久。
 
我们来看第二种计费方式——独占节点,这与云计算中心的预留实例类似,可按月/半年/年使用付费。
以下是国家超级计算长沙中心通用CPU服务器的配置及收费标准(单位:万元/年),可以看到根据合约的长短,超算中心会给予一定的折扣:

至于云计算中心,之前我们对包括AWS、阿里云、Azure、Google Cloud、华为云、腾讯云在内的六家主流云厂商的计费模式有过非常详细的分析:
预留实例:相当于批发,买定离手。
主要针对中长期稳定需求,优点是价格整体比较低,缺点是资源必须长期持有,灵活性差。
按需实例:相当于零售,即买即用。
针对短期弹性需求,按小时计费,灵活精准,避免浪费,但价格比较高。
可被抢占实例:相当于秒杀,手快有手慢无。
价格可高可低波动大,随时可能被抢占,需要有一定的技术实力才能使用。

详细说明推荐看这两篇:
 《【2020新版】六家云厂商价格比较:AWS/阿里云/Azure/Google Cloud/华为云/腾讯云
云资源中的低成本战斗机——竞价实例,AWS、阿里云等六家云厂商完全用户使用指南》。

总结一下两者的计费方式,超算由于资源有限,只有排队作业和独占节点两种方式,且存在限制;云计算中心的计费方式则包括预留实例、按需实例、可被抢占实例,相比超算更为灵活。


商用门槛


首先是流程,几乎每家超算中心都有一套申请、审核、使用流程,平均需要5.8个步骤。以国家超级计算天津中心为例,其步骤如下:


其次是审核,并非用户递交了申请,就一定能够获得通过,由于超算中心的资源会优先供给科研项目,因此对高校用户较为友好,商业用户的优先级则相对较低。

最后是收费。高校超算中心通常会对本院校内的用户实施优惠政策,有时优惠价格甚至只有商业用户的四分之一。
而与云计算中心类似的是,超算中心也制定了“量大从优”的优惠政策,但是这个量的上限可能很快到达。

步骤繁琐、审核不易、商用昂贵,这些使用门槛会进一步阻碍商业用户使用超算的热情。

至于云计算中心,其为商用而生的本质注定了云几乎不存在门槛:
1、申请云资源流程简便,可以说是即开即用;

2、收费上,每家公有云厂商都有多种资源模式,用户可以根据自己的实际需求选择合适的模式,以最大程度节省成本;
3、云厂商的各类打折促销活动新用户优惠层出不穷;
4、对于商业用户,云厂商往往会推出企业折扣


更新周期


硬件的更新周期也是一个隐形的性能衡量指标,毕竟在相近的单价下,你拿着两块相差三年上市的CPU非要拼性能,就有点太欺负人了。
 
在硬件更新周期的比拼上,我们主要关注两个维度:
总体更新周期最新硬件更新周期
 
总体更新周期指机房建设完成后,大规模更新硬件的周期。
由于建设超算中心所受到的各种影响因素较多,不同超算中心对硬件的更新周期差距很大。

通过对国内已知超算中心的盘点,我们发现总体更新周期最快的是上海交通大学高性能计算中心:
2013年6月,其研发的π1.0超算系统于进入全球超算TOP500;
2016年初,π1.2升级完成;
2019年4月,π2.0正式上线。
基本按照3年一次的更新速度稳步推进。

其他超算中心就慢得多了,比如中国科学院超级计算中心怀柔分中心的“元”超级计算系统一期于2014年建设完成并投入使用,用于替换已运行近6年的深腾7000超级计算系统。而“元”运行至今也已有6年,尚未进行下一代更新。
图片来源:中国科学院超级计算中心

云计算中心的建设通常更为成熟和商业化,其总体更新周期较为固定。通常而言,云厂商会依据具体的更新策略有序推进硬件更新工作,这些指导方针往往会精确规定硬件更换的频率,如服务器每五年更换一次,硬盘每三到五年更换一次,或者不间断电源电池每两年更换一次。

总体而言,云计算中心的平均总体更新周期与更新最快的超算中心大致相仿。
 
最新硬件更新周期是指硬件厂商推出最新规格或型号的产品之后,用户需要多久能够在超算中心或云计算中心使用该产品。

超算中心从规划设计到正式上线需要经历若干年的时间,能够在上线时配置当年上市的硬件已经是其规划能力的最佳体现,其最新硬件更新周期以年为单位

而云计算厂商可以将最新硬件更新周期缩短到以小时计。
2019年4月3日上午,Intel在太平洋两岸近乎同步发布了代号Cascade Lake的第二代至强可扩展处理器。
当天中午12点,国内某云厂商便宣布其基于Cascade Lake的全新一代通用计算增强型云服务器C6正式转为商用。
此时,Intel在北京的发布会尚未结束,距旧金山的发布会开始也还不到12小时。



合作生态


各大云厂商均打造了完整的合作伙伴体系计划,包括一系列的培训与认证,为广大第三方提供包括产品课程、解决方案课程、认证培训课程在内的多项课程。

云厂商还会对合作伙伴的种类进行明确的划分,比如某公有云厂商便将合作伙伴分为系统集成商、战略咨询公司、代理机构、托管服务提供商、原始设备制造商、半导体制造商、网络运营商,不同类型的合作伙伴各司其职,技术互补,形成一条完整的生态链,为其客户多角度、全方位、常态化地提供形形色色的服务。 

这些恰恰都是传统超算中心所欠缺的,究其原因,在于其底层差异——算是一套封闭的系统,而云是一个开放的平台


超算云 VS 云超算


不管是超算云还是云超算,我们看到的概念基本是将超算的既有资源以云的形式卖出去,包括计费和服务都在向云靠拢。

目前几大国家超算中心均有超算向云靠拢的动静,以广州中心为例。
根据官网介绍,该中心提供云超算服务天河星光云超算平台两类云服务。
图片来源:国家超级计算广州中心

前者采用麒麟安全云系统实现虚拟化技术,将虚拟机资源远程推送给用户使用。用户可按照所需的虚机配置与数量进行弹性购买,最大限度节约成本,目前虚拟机规格共有4种,从4核8G内存到24核64G内存不等。
后者则在前者的基础上更进一步,嵌入应用软件中心、远程可视化和工作流管理三大模块,让用户能够通过图形化界面高效使用和管理应用。
 

是时候展现真正的技术了
我们有个【在线体验版】云平台,扫码即可注册,2分钟自动开通。即刻就能获得TOP500这种超级算力,你就不想试一下?

你想要的我们可能都有,还送300元体验金,入股不亏~


扫码注册,【在线体验版】入口

 END -

2020年新版《六大云厂商资源价格对比工具包》
扫码添加小F微信(ID: imfastone)获取


你也许想了解具体的落地场景:

EDA云实证Vol.1:从30天到17小时,如何让HSPICE仿真效率提升42倍?

15小时虚拟筛选10亿分子,《Nature》+HMS验证云端新药研发未来

2019-2020春江云暖你先知,CAE/EDA/高校等CloudHPC领域年均复合增长率超21%


关于云端高性能计算平台

帮助CXO解惑上云成本的迷思,看这篇就够了

灵魂画师,在线科普多云平台/CMP云管平台/中间件/虚拟化/容器是个啥

花费4小时5500美元,速石科技跻身全球超算TOP500

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存