2020年人工智能深度学习 GPU 解决方案推荐

北鲲云 2023-01-17

收录于合集 #人工智能 9个

纵观人类几百年来的科技发展史，几乎所有的新兴学科的发展背后都有两个字——“烧钱”！

作为近年来最火热的行业——人工智能，在烧钱方面同样不遑多让。众所周知，人工智能的训练和推理都需要海量的高性能计算，大型企业或者研究机构可以一掷千金部署 HPC；中小型企业或个人研究者通常选择购置性能强劲的 GPU 搭建工作站。那么，2020年的研究者们应该配备什么样的 GPU 才能满足深度学习的需求呢？

做深度学习的朋友都知道，现今深度学习领域最先进的（SOTA）模型往往需要巨大的显存空间，这直接导致了深度学习的研究者们需要配置更强劲的 GPU 设备，否则就会分分钟面临显存不足的窘境。在 techtestreport 的一篇显卡横向测评文章《Best GPU for Deep Learning & AI (2020)》中，研究者们对比了现阶段4款顶尖GPU显卡，并测试了它们对于深度学习 SOTA 模型的支持程度及其AI性能。而更早一些的 lambda 上的一篇结论相似的文章则增加了更多中低端 GPU 的测试。

不管是 techtestreport 还是 lambda ，其最终结论都大同小异：随着深度学习技术的突飞猛进，想要凭借一块 12G 内存的 GPU 通吃图像模型的时代已经一去不复返了——2020年的你至少需要一块2500美元左右的Titan RTX 才可以勉强跑通业界性能最好的模型。

lambda 的评测中包含了以下几款 GPU ：

RTX 8000：48GB 显存，约 5300 美元
RTX 6000：24GB 显存，约 3900 美元
Titan RTX：24GB 显存，约 2500 美元
RTX 2080Ti：11GB 显存，约 1150 美元
RTX 1080Ti：11GB 显存，约 800 美元（翻新）
RTX 2080：8GB 显存，约 720 美元
RTX 2070：8GB 显存，约 500 美元
RTX 2060：6GB 显存，约 359 美元

图像模型测试

评测者在该项测试中选择了CV（计算机视觉）和 NLP（自然语言处理）两个研究方向的顶尖模型进行测试。结果显示，对于图像模型的处理，中低端的基础版 GPU 或 Ti 系的处理效果相差不大，都不尽人意。

与之相对的，以 RTX 8000 为首的3款高端显卡的优势则非常明显。如下图显示，在各个模型中 GPU 的处理能力相对中低端显卡都提升了4-8倍

1. 显存能支持的最大批量大小

如下图显示，在Pix2Pix HD 训练模型中， 24GB 以下显存的（ Titan RTX ）GPU 根本无法运行。这主要因为输入图像为 2048x1024 的高清大图，训练所需的显存与计算都非常大。

图1 //带*符号表示 GPU 显存不足以运行模型 / 图片来源于网络

2. 性能（每秒处理的图像数量）

评测者选择的均为大模型，即便是其中最快的神经架构搜索模型 NasNet Large，也一直以算力需求大著称。其图像分辨率只有 331x331。

图2 //带*符号表示 GPU 显存不足以运行模型 / 图片来源于网络

语言类模型测试

在语言类模型的测试中，RTX 系高端GPU的优势仍然非常明显。但Titan RTX 却有着更高的性价比。

1. 显存能支持的最大批量大小

评测选择了三个机器翻译模型（前三）和三个预训练语言模型（后三），两者的计数方式不太一样，一条 Sequences 可能相当于几十到几百个 Token。

图3 //带*符号表示 GPU 显存不足以运行模型 / 图片来源于网络

2.性能

图4 //带*符号表示 GPU 显存不足以运行模型 / 图片来源于网络

在这项测试中 RTX 2060 再次被吊打，几乎无法运行大多数模型。而从 RTX2070 直到RTX 2080Ti 也颓势尽显。让人惊喜的是 Titan RTX ，在所有数据上不仅不弱于 RTX 6000 ，甚至有多项数据要强于后者，要知道 RTX 6000 的售价整整高出了将近1500美元！正因为如此， Titan RTX 也被称为此次评测中“物美价廉的深度学习模型性能最佳的GPU”。

测试结果

为了更好理解， lambda 以 Quadro RTX 8000 为基准，将其设定为「1」，其它 GPU 则针对该 GPU 计算出相对性能。如下所示为不同模型在不同 GPU 上进行训练的数据吞吐量：

以上所有测试，lambda 都给出了测试模型与数据集。而测试模型涵盖了图像识别、分割、检测与生成，到机器翻译、语言模型与 GLUE 基准，基本覆盖了 GPU 使用的绝大多数场景。

除了硬件之外，我们还可以从本次测评中观察到近段时间深度学习发展趋势的变化：

语言模型比图像模型更需要大容量显存。这表明语言模型受内存的限制更大，而图像模型受算力的限制更大。
显存越高，意味着性能越强大。因为显存越大，batch size 就越大，CUDA 核可以更加接近满负荷工作。
更大的显存可以按比例用更大的 Batch size，以此推之：24GB 显存的 GPU 相比 8GB 显存的 GPU 可以用上 3 倍的 batch。
对于长序列来说，语言模型的内存占用增长情况不成比例，因为注意力是序列长度的二次方。

所以，2020 年，深度学习需要什么样的 GPU？

答案是：你至少需要一块价值2500美元的 Titan RTX （壕请直接上RTX 8000）。刚刚吃土大半年才买进一块 2080Ti 的你是不是有点绝望？但更让人绝望的是，Titan RTX 也不一定能撑多久。毕竟一年前11GB显存的 2080Ti 还是主流……

另一种思路

单单一块 GPU 显卡就要接近2万大洋，是不是感觉有点丧？但你或许应该转变一种思路，为什么不试试云超算平台？

也许你用过Kaggle Kernel、Google Colab之类的云平台，但它们要么设备过时，要么并不稳定，又或者支持的软件或框架并不齐全，总之使用起来并不那么得心应手。

那你可以试试云端软件推出的云E弹性算力云平台！

云E专为人工智能行业提供的高性能计算一站式解决方案，在全球拥有25个地域节点，超过10万台服务器，整合海量云端异构资源，提供单 GPU 节点可达8卡的业界顶级 GPU NVIDIA Tesla V100。

云E的应用集装箱模块预集成了包括 PaddlePaddle、PyTorch、TF 在内的20多种人工智能框架或专业软件，开箱即用。支持自动化工作流，让整个训练流程简单清晰，使用者只需专注于专业内容，无需再为硬件设备的配置及部署费心费力。

那么，云E平台的使用成本高吗？

我们以前文提到的 Titan RTX 为例，仅在单块 GPU 的投入上就高达2500美元（约17500元人民币）。

如果选择云E弹性算力云平台，即使是选择性能更强的专为高性能计算服务器配置的 Telsa P100，这17500元可以至少训练4375小时！如果选用型号略旧但拥有 64GB 内存的 TPU V2 或者 56GB 的 Telsa P40，成本还能节省一半！

更关键的是，如果遇到紧急任务需要加快训练进度，使用本地机的你不可能马上增加一块 GPU ，而在云E弹性算力云平台，你只需要选择增加卡数，就能轻松将训练速度提升10倍！

怎么样？Get 了深度学习训练的省钱绝招，你是不是急不可耐地想要去试试炫酷的深度学习新模型与新能力了？点击阅读原文联系我们，或者公众号回复“云E”加入咨询QQ群，还可能免费获得2000核时算力哦！

关于云端

深圳云端软件有限公司（Cloudam）是弹性算力与云成本优化的技术领导者，为企业打造一站式的算力云平台及自动化云成本优化服务。云端软件推出的云E算力平台整合了全球主流公有云近50个地域的高性能计算资源，能为人工智能、仿真模拟、生物科技、材料化学等行业提供弹性、高效、经济的算力支持。

Cloudam成立于瑞典斯德哥尔摩，在深圳及斯德哥尔摩两地运营，团队核心成员来自于Oracle、Ericsson、IBM、华为等知名企业，拥有15年以上的世界500强企业技术服务经验和研发背景，已成功为欧洲及中国多家企业提供产品和技术服务。

分享、在看与点赞

了解更多高性能计算与云的知识

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

2020年人工智能深度学习 GPU 解决方案推荐

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

生成图片，分享到微信朋友圈

2020年人工智能深度学习 GPU 解决方案推荐

您可能也对以下帖子感兴趣