微软和 TempoQuest 利用 AceCast 加速风能预测
准确的天气模型对于企业正确预测可再生能源的生产和制定自然灾害预案至关重要。仅 2022 年,无效和无法预测的天气就造成了约 7140 亿 美元的损失。为了避免这种情况,企业需要更快、更便宜、更精准的天气模型。
在 GTC23 上,微软和 TempoQuest 详细介绍了他们如何与 NVIDIA 合作一起解决这个能源和气候问题。NVIDIA 初创加速计划成员 TempoQuest 实现了超本地、低延迟的天气和环境预测。该多学科合作团队涵盖大气科学、气象学、高性能计算(HPC)AI、机器学习(ML)、工程等领域,是将 GPU 引入环境领域的先锋,包括:
第一个将 WRF 移植到 GPU 上
第一个以比基于 CPU 的预测更快、更便宜的方式创建更高分辨率的预测
第一个开发出 GPU 软件即服务的天气预报系统
本文中将介绍 TempoQuest 如何利用微软 Azure 上的 NVIDIA 加速计算,将传统的天气研究和预报(WRF)软件移植到 GPU 上、提供高于 1 公里的分辨率以及 1 分钟至 1 小时的时间分辨率并加快对可再生风能和太阳能资源发电的预测。
公用事业单位在整合可再生能源过程中所面临的挑战
公用事业单位在他们的电网中使用可再生能源(主要是风能和太阳能)是具有挑战性的。这些能源因环境因素而异,比如云层覆盖和风速等。如果可再生能源的发电量不足以满足需求,公用事业单位必须使用“旋转备用”,即由发电机生产的碳基电力来弥补缺口。为了更好地预测可再生能源发电,需要快速、准确、经济的天气预报。
图 1 标准电网基础设施示意图,包括发电、输电和配电
能源行业需要实现三个关键功能:发电、输电和配电。发电目前主要使用碳基燃料,但正在向包括风能和太阳能在内的可再生能源过渡,以实现净零排放。输电指的是产生的电力通过升压变压器后经高压线传输。在遥远的电网边缘,电力经变压器和变电站“降压”后,输送给家庭和企业的用电者(240 V / 120 V)。
如果要在电网中增加更多可再生能源,公用事业单位不仅要整合新的发电站,还要建造更多高压输电线路和塔架。这就给电网维护带来了更高的复杂性和成本,包括投资和运营费用。高分辨率的 GPU 加速 WRF 可以通过减少对碳基电力的依赖和优化可再生能源的使用帮助实现这一目标。
使用 GPU 加速 WRF
AceCAST 代表“加速预测”,通过运行一个名为“天气研究和预报”(WRF)的区域模型可实现加速预测。目前,已有 160 个国家的 5 万名用户使用该模型。通过将 WRF 移植到使用专有的 OpenACC 和 CUDA 带有 NVIDIA GPU 的 x86 系统上运行,并在多 GPU 和多节点系统上进行扩展。AceCAST 支持所有主要的 WRF 动力学、物理学方案和名词表选项,可直接取代现有的 WRF 配置。
AceCAST 的众多优点包括更快的求解时间、更高的分辨率和精度、对局部天气现象更加深入的认识以及更低的计算成本。
测试表明,在天气预报和可再生能源预测方面,GPU 比 CPU 速度更快、分辨率更高且更具成本效益。这一加速解决方案对于减少碳排放、提升电网可靠性和管理以及降低用电者的用电成本十分重要。
AceCAST 验证和性能成本分析
为了验证基准测试结果,首先要保证 CPU WRF 与 GPU WRF 的差异在可接受的范围内。团队在几个时间和空间预测范围内测试了模型性能,最终验证了数千个测试案例,以确保 AceCAST 产生与 CPU WRF 相同的结果。在微软 Azure 上运行性能测试时,团队发现两者在性能和成本上都有很大的差异。
基于 CPU 的 WRF – Standard HB120rs_v3 VMs(HBv3):
120 颗 AMD EPYC™ 7V73X 系列(Milan-X)CPU 核
450 GB 内存( 350 GB/s 内存带宽)
200 Gb/s HDR InfiniBand
2 个1 TB NVMe 固态硬盘
NCAR WRF 4.2.2
使用 Parallel net-CDF
使用英特尔编译器和 MPI 进行编译
GPU 加速 WRF - Standard_ND96amsr_A100_v4(NDmv4):
8 个 NVIDIA A100 Tensor Core GPUs (80GB)
NVLink 3.0(200 Gb/s HDR InfiniBand)
96 颗 AMD EPYC™ 7V12 系列(Rome)CPU 核
8 个 1 TB NVMe 固态硬盘
AceCAST 2.1
使用 OpenACC 和 CUDA 的专有实现
使用 MPI 在多节点和多 GPU 上进行扩展
Azure 代管式 Lustre 文件系统
40 TiB 存储 Azure 代管容量
10000 MB/s 最大吞吐量
图 2 基于 CPU 的 WRF 与 TempoQuest AceCAST 的性能价格比较分析
结果显示,与一个节点上基于 CPU 的 WRF 相比,一个节点上的 GPU 加速 WRF(AceCAST)的速度加快了约 9 倍,而要实现与一个 GPU 节点类似的性能,需要 18 个 CPU 节点。这些结果至关重要,因为更快、更低成本的天气预报使公用事业单位能够更加准确地预测可再生能源发电、提供稳定可靠的电力并避免过长时间的停电。
AceCAST 3.0.1 上的进一步测试显示其可继续提升性能。团队使用了一个嵌套域,外域由 500 万个网格点(430x331x38v)和 15 公里的网格间距组成,内域由 8000 万个网格点(1551x1361x38v)和 3 公里的网格间距组成。
图 3 TempoQuest AceCAST 以最佳配置运行一项作业的性能成本图
结果显示,AceCAST 在 1xNDmA100V4(8 个 GPU)上的内域计算和通信时间比 1xHBv3(64 个CPU)快 16.8 倍。单个作业的最佳配置是在 16 个 HBv3(CPU)虚拟机上运行 WRF,在 1 个包含 8 个 GPU 的 NDmA100(GPU)虚拟机上运行 AceCAST。在这种情况下,AceCAST 比基于 CPU 的 WRF 运行速度快 7%,成本低 75%。
可再生发电功率预测
最后一步是将 AceCAST 应用于可再生能源预测。美国的公用事业单位掌握着所有 7 万多台风力发电机的规格以及每个风能和太阳能节点的位置。通过使用专有的天气-电力算法,AceCAST 可提供更高的预测分辨率,每天对特定可再生能源发电站点作出小时级的精确功率预测(MW)。
电网脱碳化
随着发电资产从集中化的碳基技术过渡到清洁的分布式能源资源,电网面临着实时管理供需的挑战。通过预测可再生资产的性能,电力公司能够提高电网的可靠性和弹性。NVIDIA、微软和 TempoQuest 正在联手帮助解决这一重大的社会及全球挑战。
凭借 AceCAST 这一 GPU 加速 WRF,TempoQuest 正在以更低的成本加速风能和太阳能可再生资源的发电功率预测。这有助于优化负载和发电的平衡、减少公用事业单位的运营成本、管理可再生能源输出的波动并产生更加可靠的预测,进而减少对碳基电力储备的依赖。
点击“阅读原文”深入了解加速计算,访问 GPU 加速库论坛。
扫描下方海报二维码,观看 NVIDIA 创始人兼 CEO 黄仁勋在 COMPUTEX 2023 的主题演讲直播回放,主题演讲中文字幕版已上线,了解 AI、图形及其他领域的最新进展!