Bladed是一个用于风力发电机组性能和载荷仿真计算的建模工具,全球大型风力机制造商约有半数采用该软件。在风力发电机组的各个设计阶段,优化设计都是重中之重。如果不能正确地对载荷、恶劣环境和结构完整性进行建模,或不能执行准确试验,都可能会极大地危害机组长期的安全性、功能性和盈利能力。风力机设计项目经常需要进行大量仿真计算,一组仿真计算耗费数千小时的计算机时。一方面,算力在总量和项目波峰波谷期的弹性供应上能否满足需求。充足的算力意味着缩短产品上市时间,拉大市场优势。另一方面,超大规模算力的调度使用和企业场景的复杂性带来的管理等问题对IT自动化和智能化要求很高。如何调度超大规模集群的过程,还有其中隐藏的成本优化问题,其实很多。某风电新能源集团建设有本地机房,但机器较陈旧,资源有限。跑Bladed仿真任务计算周期长,特别是有大型仿真任务时,往往需要数周甚至数月才能出结果。用户要求将跑大型任务的时间缩短到一天以内,同时能够对任务进行管理和监控。
1、Bladed任务能否在云端有效运行?2、fastone平台能否将大规模Bladed仿真任务周期缩短到一天?3、fastone平台能否提供高效灵活的数据传输方案?4、fastone平台能否提供有效的任务管理和监控?操作系统:
Bladed 4.10之前的版本不支持Linux系统,只支持Windows。本次实证由于用户更熟悉Windows操作系统,所以并未选择Linux镜像。主流云厂商对不同操作系统镜像有不同的定价方式。整体上来说,通过Windows系统使用云资源价格比Linux系统要贵。
构建风力发电机性能模型,运行仿真计算并处理结果,为工程师提供有关风力机动力学和优化的重要决策信息。Bladed License Server设置在云端。Bladed是一个计算密集型应用,对CPU要求高、内存要求不大,因此平台为用户推荐选择了满足其应用特点的计算优化型实例机型。调度器:
因为选择了Windows操作系统,所以本实证中集群调度使用的是PBS调度器。
技术架构图:
用户通过Web方式登录构建于公有云上的fastone算力运营平台,根据实际计算需求自动创建、销毁集群,提交计算任务,上传下载任务,监控管理。
用户通过NAT方式访问位于公网的License服务器。
用户通过VPN接入,可更安全地访问云上私密的HPC环境。
实证场景一:大规模业务验证9600个用例本地VS云端300核1、云端可提供满足Bladed应用特点的机型,运行Bladed Windows版本的任务;2、本地资源运算9600个用例,耗时约4天;通过fastone平台调用300核计算优化型实例运算9600个用例,总耗时约8小时,任务运行时间7小时;3、fastone平台的自动化伸缩,有效降低整个计算周期资源占用率;4、fastone平台能提供灵活高效的数据传输方案,满足计算数据量大需求;5、fastone平台可稳定运行Bladed任务、测试过程中未发生服务中断;6、fastone平台可监控、管理任务与集群的运行情况。1、数据上传:用户将Bladed风文件、工况文件等上传至fastone平台;3、自动可扩展集群启动:用户选择Bladed 应用,按需构建300个核的Bladed集群;4、任务运行:提交任务后,用户可随时在监控界面查看任务和集群运行情况;5、结果数据上传:任务运行成功后,自动将结果数据上传至对象存储供用户下载。Bladed的风文件和任务文件数据量极大,传统传输模式往往会面临以下问题:1、初始化大文件传输。在本实证中,用户在跑任务之前需要上传多达数百GiB的风文件;2、随着任务的调整,有大量小文件需要增量上传。在本实证中,用户需要上传9600个任务文件,每个几十MiB不等。fastone支持全自动化数据上传,可充分利用带宽,帮助用户快速上传、下载海量数据。同时,利用fastone自主研发的分段上传、高并发、断点续传等数据传输技术,优化海量数据的传输效率。在手动模式下,通常都是先构建一个固定规模的集群,然后提交任务,全部任务结束后,关闭集群。在本实证中,如果是手动部署,300核的集群一旦拉起,第一到第五步手动配置的时间里,所有机器一直都是开启状态,也就是说,烧钱中。在本实证中,fastone平台在任务的不同阶段采取不同的策略应对,除任务运行的7小时内有300核云资源满负荷运作以外,在数据处理和结果数据上传阶段均只开启了1-2台机器,而其他准备过程不需要开启机器。很重要的一点是:任务完成后会及时下载结果并自动关机。fastone的Auto-Scale功能可以自动监控用户提交的任务数量和资源的需求,动态按需地开启所需算力资源,在提升效率的同时有效降低成本。用户可根据自己需求,设置自动化调度集群规模上下限。提交任务后,可以在监控界面中查看任务和集群运行情况。实证场景二:云端线性扩展验证9600个用例云端300核 VS 3000核当我们把自动化调度集群规模上限设为3000核,任务运行时间从7小时缩短到45分钟,整体计算周期也从8小时缩短至1.75小时。
本实证中,单个任务运行时间为10-30分钟,当有任务提前运行完成且数据下载完后,相应的机器会自动关闭,避免资源浪费。
1、Bladed Windows版本任务在云端能够有效运行;2、fastone平台成功将大规模Bladed仿真任务的运算时间从4天缩短到1~7小时;3、fastone平台能够提供灵活高效的数据传输方案;4、fastone平台能够提供可靠的任务管理和监控。除了Windows系统,我们还支持通过fastone平台同时调度任务至本地和云上的Windows节点和Linux节点,满足业务需求。同时,我们也支持SLURM/SGE/LSF等主流调度器,本次实证未曾涉及。本次CAE行业Cloud HPC实证系列Vol.2就到这里了。在下一期的实证中,我们将利用速石平台,在混合云场景下调度集群运行CAE分析,使LS-DYNA模拟性能得到极大提升。未来我们还会带给大家更多领域的用云“真香”实证,请保持关注哦!扫码添加小F微信(ID: imfastone)获取