查看原文
其他

2020年人工智能深度学习 GPU 解决方案推荐

北鲲云 2023-01-17


纵观人类几百年来的科技发展史,几乎所有的新兴学科的发展背后都有两个字——“烧钱”!


作为近年来最火热的行业——人工智能,在烧钱方面同样不遑多让。众所周知,人工智能的训练和推理都需要海量的高性能计算,大型企业或者研究机构可以一掷千金部署 HPC;中小型企业或个人研究者通常选择购置性能强劲的 GPU 搭建工作站。那么,2020年的研究者们应该配备什么样的 GPU 才能满足深度学习的需求呢?


做深度学习的朋友都知道,现今深度学习领域最先进的(SOTA)模型往往需要巨大的显存空间,这直接导致了深度学习的研究者们需要配置更强劲的 GPU 设备,否则就会分分钟面临显存不足的窘境。在 techtestreport 的一篇显卡横向测评文章《Best GPU for Deep Learning & AI (2020)》中,研究者们对比了现阶段4款顶尖GPU显卡,并测试了它们对于深度学习 SOTA 模型的支持程度及其AI性能。而更早一些的 lambda 上的一篇结论相似的文章则增加了更多中低端 GPU 的测试。



不管是 techtestreport 还是 lambda ,其最终结论都大同小异:随着深度学习技术的突飞猛进,想要凭借一块 12G 内存的 GPU 通吃图像模型的时代已经一去不复返了——2020年的你至少需要一块2500美元左右的Titan RTX 才可以勉强跑通业界性能最好的模型。


 lambda 的评测中包含了以下几款 GPU :

  • RTX 8000:48GB 显存,约 5300 美元

  • RTX 6000:24GB 显存,约 3900 美元

  • Titan RTX:24GB 显存,约 2500 美元

  • RTX 2080Ti:11GB 显存,约 1150 美元

  • RTX 1080Ti:11GB 显存,约 800 美元(翻新)

  • RTX 2080:8GB 显存,约 720 美元

  • RTX 2070:8GB 显存,约 500 美元

  • RTX 2060:6GB 显存,约 359 美元



图像模型测试


评测者在该项测试中选择了CV(计算机视觉)和 NLP(自然语言处理)两个研究方向的顶尖模型进行测试。结果显示,对于图像模型的处理,中低端的基础版 GPU 或 Ti 系的处理效果相差不大,都不尽人意。


与之相对的,以 RTX 8000 为首的3款高端显卡的优势则非常明显。如下图显示,在各个模型中 GPU 的处理能力相对中低端显卡都提升了4-8倍


1. 显存能支持的最大批量大小

如下图显示,在Pix2Pix HD 训练模型中, 24GB 以下显存的( Titan RTX )GPU 根本无法运行。这主要因为输入图像为 2048x1024 的高清大图,训练所需的显存与计算都非常大。


图1 //带*符号表示 GPU 显存不足以运行模型  / 图片来源于网络


2. 性能(每秒处理的图像数量)

评测者选择的均为大模型,即便是其中最快的神经架构搜索模型 NasNet Large,也一直以算力需求大著称。其图像分辨率只有 331x331。


图2 //带*符号表示 GPU 显存不足以运行模型  / 图片来源于网络




语言类模型测试


在语言类模型的测试中,RTX 系高端GPU的优势仍然非常明显。但Titan RTX 却有着更高的性价比。


1. 显存能支持的最大批量大小

评测选择了三个机器翻译模型(前三)和三个预训练语言模型(后三),两者的计数方式不太一样,一条 Sequences 可能相当于几十到几百个 Token。


图3 //带*符号表示 GPU 显存不足以运行模型  / 图片来源于网络


2.性能


图4 //带*符号表示 GPU 显存不足以运行模型  / 图片来源于网络

在这项测试中 RTX 2060 再次被吊打,几乎无法运行大多数模型。而从 RTX2070 直到RTX 2080Ti 也颓势尽显。让人惊喜的是 Titan RTX ,在所有数据上不仅不弱于 RTX 6000 ,甚至有多项数据要强于后者,要知道  RTX 6000 的售价整整高出了将近1500美元!正因为如此, Titan RTX 也被称为此次评测中“物美价廉的深度学习模型性能最佳的GPU”。



测试结果


为了更好理解, lambda 以 Quadro RTX 8000 为基准,将其设定为「1」,其它 GPU 则针对该 GPU 计算出相对性能。如下所示为不同模型在不同 GPU 上进行训练的数据吞吐量:


以上所有测试,lambda 都给出了测试模型与数据集。而测试模型涵盖了图像识别、分割、检测与生成,到机器翻译、语言模型与 GLUE 基准,基本覆盖了 GPU 使用的绝大多数场景。


除了硬件之外,我们还可以从本次测评中观察到近段时间深度学习发展趋势的变化:


  • 语言模型比图像模型更需要大容量显存。这表明语言模型受内存的限制更大,而图像模型受算力的限制更大。

  • 显存越高,意味着性能越强大。因为显存越大,batch size 就越大,CUDA 核可以更加接近满负荷工作。

  • 更大的显存可以按比例用更大的 Batch size,以此推之:24GB 显存的 GPU 相比 8GB 显存的 GPU 可以用上 3 倍的 batch。

  • 对于长序列来说,语言模型的内存占用增长情况不成比例,因为注意力是序列长度的二次方。


所以,2020 年,深度学习需要什么样的 GPU?


答案是:你至少需要一块价值2500美元的 Titan RTX (壕请直接上RTX 8000)。刚刚吃土大半年才买进一块 2080Ti 的你是不是有点绝望?但更让人绝望的是,Titan RTX 也不一定能撑多久。毕竟一年前11GB显存的 2080Ti 还是主流……



另一种思路



单单一块 GPU 显卡就要接近2万大洋,是不是感觉有点丧?但你或许应该转变一种思路,为什么不试试云超算平台?


也许你用过Kaggle Kernel、Google Colab之类的云平台,但它们要么设备过时,要么并不稳定,又或者支持的软件或框架并不齐全,总之使用起来并不那么得心应手。


那你可以试试云端软件推出的云E弹性算力云平台!


云E专为人工智能行业提供的高性能计算一站式解决方案,在全球拥有25个地域节点,超过10万台服务器,整合海量云端异构资源,提供单 GPU 节点可达8卡的业界顶级 GPU  NVIDIA Tesla V100。


云E的应用集装箱模块预集成了包括 PaddlePaddle、PyTorch、TF 在内的20多种人工智能框架或专业软件,开箱即用。支持自动化工作流,让整个训练流程简单清晰,使用者只需专注于专业内容,无需再为硬件设备的配置及部署费心费力。


那么,云E平台的使用成本高吗?


我们以前文提到的 Titan RTX 为例,仅在单块 GPU 的投入上就高达2500美元(约17500元人民币)。


如果选择云E弹性算力云平台,即使是选择性能更强的专为高性能计算服务器配置的 Telsa  P100,这17500元可以至少训练4375小时!如果选用型号略旧但拥有 64GB 内存的 TPU V2 或者 56GB 的 Telsa  P40,成本还能节省一半!


更关键的是,如果遇到紧急任务需要加快训练进度,使用本地机的你不可能马上增加一块 GPU ,而在云E弹性算力云平台,你只需要选择增加卡数,就能轻松将训练速度提升10倍!


怎么样?Get 了深度学习训练的省钱绝招,你是不是急不可耐地想要去试试炫酷的深度学习新模型与新能力了?点击阅读原文联系我们,或者公众号回复“云E”加入咨询QQ群,还可能免费获得2000核时算力哦!


关于云端

深圳云端软件有限公司(Cloudam)是弹性算力与云成本优化的技术领导者,为企业打造一站式的算力云平台及自动化云成本优化服务。云端软件推出的云E算力平台整合了全球主流公有云近50个地域的高性能计算资源,能为人工智能、仿真模拟、生物科技、材料化学等行业提供弹性、高效、经济的算力支持。


Cloudam成立于瑞典斯德哥尔摩,在深圳及斯德哥尔摩两地运营,团队核心成员来自于Oracle、Ericsson、IBM、华为等知名企业,拥有15年以上的世界500强企业技术服务经验和研发背景,已成功为欧洲及中国多家企业提供产品和技术服务。

分享、在看与点赞

了解更多高性能计算与云的知识

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存