查看原文
其他

阿里云GPU计算平台首次超百万级性能纪录!异构计算平台打破MLPerf推理纪录,每秒处理107万张图片!

NeuralTalk 2022-11-28

Editor's Note

阿里云自研异构计算加速平台,适配GPU、ASIC等异构AI芯片,优化编译代码,释放异构芯片算力,支持TensorFlow、Caffe、PAI等多种深度学习框架,可实现AI框架及算法的无缝迁移适配,支持云边端多场景部署,提升AI应用开发效率。

The following article is from 阿里云基础设施 Author 阿里云基础设施


阿里云打破MLPerf推理性能测试

绝对性能纪录

  阿里云震旦异构计算加速平台全栈优化技术获历史性突破,MLPerf图像分类场景性能测试夺得多项第一。

 每秒处理107万张图片,基于GPU系统第一次超越百万级性能纪录。

●  应用阿里电商场景,图片关联产品推荐速度提升5倍,用户购物体验更加流畅。


2021年4月21日,MLCommons™发布MLPerf ™1.0版推理性能测试结果。阿里云服务器研发团队基于震旦异构计算加速平台的软硬件全栈优化技术获得历史性突破!在MLPerf图像分类(Image Classification)性能测试分类中取得多项第一,特别是在离线场景(Offline Scenario) 性能测试中,基于8张NVIDIA A100 GPU通过开放优化规则取得了每秒处理107.8万张图片的惊人成绩,超越了V0.5版本中由128张Google TPU V3在该测试中通过封闭优化规则取得的每秒处理103.9万张图片的最好结果,一举拿下了绝对性能纪录的宝座,这也是通用GPU计算平台首次超越百万级的性能纪录


这将进一步提升图像识别、自动驾驶等场景下的计算效率,比如在阿里电商某场景下,基于相同GPU硬件采用编译自动优化技术后,自动分类标记产品图像或者搜索图像效率大幅提升,服务器数量减少75%,通过图片关联的产品推荐速度提升5倍,用户购物体验更加流畅

MLPerf™是目前全球最权威的AI基准测试之一,在2018年发布V0.5测试结果之后,迅速得到了各大厂商、科研机构和高校支持和参与。图像分类是AI领域最为热门的应用领域之一,图像分类性能测试是MLPerf™推理性能创始测试之一,且每一版、每个参与者都会提交该测试的离线场景测试结果,竞争之激烈,称之为MLPerf™测试皇冠上的明珠并不为过。




1

震旦平台MLPerf推理性能结果1.0版成绩


震旦是阿里云自研的异构计算加速平台,适配GPU、ASIC等多种异构AI芯片,优化编译代码,深挖和释放异构芯片算力,支持TensorFlow、Caffe、PAI等多种深度学习框架,可实现AI框架及算法的无缝迁移适配,支持云边端多场景快速部署,大幅提升AI应用开发效率。在MLPerf最新版的图像分类测试中,震旦平台针对图像分类神经网络架构进行自动优化,在保证基准测试精度目标的同时,远超标准ResNet50 v1.5的计算效率

在公布的MLPerf推理性能测试结果1.0版中,除了在8卡GPU配置上性能夺魁,阿里云还在A100、主流推理GPU T4,以及刚刚官宣的下一代推理GPU A10的单卡性能结果也都获得了第一,且成绩大幅领先第二名。


◆ 在A100上,阿里云第一个超越了单卡10万量级,达到了136142 IPS(Image Per Second),是本次提交其它厂商最佳成绩的1.84倍;

◆ 在A10上,阿里云的性能达到了69514 IPS,是本次提交其它厂商最佳成绩的3.61倍;

◆ 在T4上,本次其他厂商成绩未超越0.7版的最佳,而阿里云的结果达到了30414 IPS,是0.7版最佳的2.34倍。




值得一提的是,震旦异构计算加速平台针对机器学习模型的自动优化技术,能做到对GPU架构的通用支持,仅需要非常少的人工便可高效利用新一代的GPU架构。我们利用官宣刚发布的单张A10 GPU,系统性能能够达到单张A100 GPU的系统性能的50%以上,而其他厂商仅能达到三分之一左右。




2

基于深度软硬件全栈优化的解读

震旦异构计算加速平台之所以在此次评测中取得如此优异成绩,得益于其出色的软硬件全栈优化能力,首先在顶层算法模型上,使用基于自动机器学习(AutoML)的模型设计方式,这种方式可以获得比人工设计更高效的模型。震旦基于MIT的先进的神经网络架构搜索算法Once-For-All,使用了基于强化学习的自研搜索算法获得了高性能子网络;之后通过INT8量化获得硬件加速继续提高性能,并在量化前进行深度重训练,以保证量化后的精度能够达到测试的精度要求。 


上图为高性能子网络示意图,IRB即反转残差块(Inverted Residual Block),是用于网络架构搜索的基本模块。每个反转残差块包括三层卷积算子,图上反转残差块的长度代表了该块的输出channel数量。

一般机器学习框架的算子实现专注于优化主流的神经网络架构,而对于NAS的反转残差块则效率不佳,震旦使用了基于自动调优的大规模算子融合技术,大幅提高了推理时算子对GPU的利用率,并且可根据不同的架构自动调优到最佳算子实现,因此能快速发掘全新GPU架构的潜力,例如在刚官宣的A10芯片上,震旦的优化结果能达到50%的A100的性能,而TensorRT目前仅能做到三分之一。

2020年,参与MLPerf的多家厂商联合成立了MLCommons组织,旨在推动人工智能的进一步发展,而MLPerf也成为了MLCommons旗下的重要部分。阿里巴巴作为MLCommons的创始会员,一直积极参与MLPerf 测试结果的提交,2019年11月发布的MLPerf 推理性能测试结果0.5版本中,阿里巴巴平头哥AI芯片含光800在封闭优化规则下Resnet50基准测试中获得单芯片性能第一

技术驱动的阿里云在基础设施技术创新和前沿科技上不断突破,坚持软硬件协同优化,为云计算、人工智能提供更加先进的高可用大规模云基础设施,给全球消费者带来更好的用户体验。基于震旦异构计算加速平台的机器学习模型自动优化技术,可应用在包括视觉处理在内的多个场景,如电商场景视频图像识别和处理、城市大脑交通场景等。

目前,该平台通过阿里云弹性计算加速实例EAIS对外提供服务。弹性计算加速实例EAIS,将异构算力资源池化的同时,与CPU计算资源解耦以增加配置灵活性,结合震旦平台的EAIS,将弹性、灵活、以及高性能完美结合,为用户提供高性价比的深度学习计算解决方案。

点击【阅读原文】,看往期文章

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存