为什么平头哥和英伟达在MLPerf基准测试中都获得了第一？

包永刚雷锋网 2019-12-11

▲点击上方雷锋网关注

总的来说，几乎每个芯片公司都可以在某个类别中取得胜利。

文 | 包永刚

雷锋网按，本周，MLPerf组织发布了第一个MLPerf Inference v0.5的结果，虽然这个基准测试还不成熟，但依旧获得了巨头公司的广泛关注。并且平头哥、英伟在成绩公布后纷纷发布消息表示自己成绩都获得了第一？

自去年初成立之后， MLPerf组织一直在稳步建立其机器学习到的Benchmarks。为了能够让机器学习处理器的基准测试也像CPU那样，该组织囊括了该行业中的所有知名企业，比如英特尔、NVIDIA、Google和百度。从技术上讲，MLPerf基准测试还处于初期阶段，它们甚至还没有完成，但是该组织的成果引起发了巨大关注。

早在6月份，该组织就发布了第二个基准测试集MLPerf Inference v0.5。顾名思义，这是MLPerf组织的机器学习推理基准测试，旨在衡量各种加速器和系统执行训练后的神经网络的程度和速度。MLPerf Inference是测试推理性能的通用方法，它最终将成为衡量从低功耗SoC中的NPU到数据中心高性能加速器的标准。在基准测试首次发布的四个多月之后，MLPerf组织发布推理基准测试的首个官方结果。

基准测试的初始版本v0.5仍然非常不完整，它目前仅涵盖5个网络/基准，并且还没有功耗测试指标，这是衡量整体能源效率是必不可少的。尽管如此，基准测试的初始版本吸引了主要芯片公司的关注，这些公司都渴望展示其硬件在基准测试中的成绩，并向客户（和投资者）说明为什么他们的解决方案更好。实际上，第一轮官方基准测试提交了近600份结果，远超出了该组织非正式预期的全新基准测（通常需要一段时间才能建立新的行业基准），这更能说明了行业对MLPerf的期待，推理芯片数十亿美元的市场将继续快速增长。

随着第一轮申请工作的完成，MLPerf组织现在发布其Inference v0.5的官方结果，不过只是大多数（如果不是全部）主要芯片公司都在发布与结果相关的公告，声明或新闻稿。说实在的，600份提交的成果分布在40种不同的测试中，芯片公司还有很多事情可以做。缩小标准范围，每个人都可以找到成功的方案，例如总吞吐量、延迟，每个加速器的吞吐量等。这并不是基准测试本身，甚至也不是芯片公司所为，但这给我们提醒，即使初始版本足够广泛，也可以涵盖很多用例，尤其是在专用加速器的情况下，它们通常针对特定用例进行了优化。

作为更新，MLPerf v0.5分为5个基准，其中两个基准实质上是其各自主基准的移动衍生产品。当前这个套件的桌面/服务器版本涵盖了图像分类（ResNet50），对象检测（ResNet34）和机器翻译任务（GNMT）。所有基准测试都提供了四种方案：单路（一个终端运行一个任务），多路（一个终端同时运行多个任务），服务器（服务器的实时性能）和离线（不在线的服务器）。这些实质上将方案分解为终端和服务器方案，并从分解为相应平台的两个最常见方案。

更进一步，MLPerf提供了两个测试“分区”：封闭分区和开放分区。封闭分区是“苹果对苹果（apples-to-apples）”测试，芯片将获得预先训练的网络和预先训练的权重。在选择要使用的精度等级（只要满足精度要求）方面，芯片公司在量化方面仍具有一定的灵活性，但是在封闭的分区，他们的解决方案仍必须达到数学上的等效性，并且禁止重新训练网络。这个目的在于，测试平台能否很好地执行预训练好的网络。

相比之下，开放式分区显然更加开放。芯片公司被允许重新训练网络以及进行更广泛的量化工作。绝对不是封闭测试区那样的苹果对苹果，开放分区本质上是一种结构较少的结构化格式，可以让芯片公司以最佳的方式展示其解决方案和团队的独创性。

深入研究结果，MLPerf最终收到了从CPU和GPU到FPGA，DSP和专用ASIC等各领域的官方意见。正如一位MLPerf代表指出的那样，该组织实质上收到了除神经形态和模拟系统以外的每种类型处理器的成果。当然会有大公司的代表，包括NVIDIA的GPU、谷歌的TPU、英特尔的CPU和加速器以及Habana Labs的Goya加速器。即使在封闭分区，也有一些预期外的结果，包括Raspberry Pi 4和阿里巴巴的含光800加速器。

总的来说，我不会在这里对结果进行过多的剖析，因为大量的测试意味着非常多的对比。更重要的是，缺少功耗测试意味着目前无法测量能效。但总的来说，几乎每个芯片公司都可以在某个类别中取得胜利。在离线测试中，看到了Google从1 TPUv3到32的几乎完美的拓展性，NVIDIA的Tesla加速器在一些测试中名列前茅，英特尔在CPU中位居榜首，高通的骁龙855在官方结果中也远远超过其它SoC。

关于MLPerf推理的第一组结果不会成为推理性能的最终成绩。在开发方面，MLPerf组织仍在努力完善基准，以添加其他网络类型，着眼于语音识别等任务。同样，该组织将进行功耗测试，以便每个人都能看到他们的设计效率，因为电源效率通常是大规模部署规划的最重要考虑因素。

尽管这些早期版本的MLPerf在添加和优化测试时和目标还有不同，但对于芯片公司来说，他们现在知道自己和竞争对手所处的位置。比参数更重要的是，机器学习优化的开放性性质意味着芯片公司还有大量空间来优化其系统以进行将来的测试，以及设计更好的新硬件。客户（其中许多人在MLPerf委员会中）希望加快工作进展。因此，既然第一个结果已经出炉，芯片公司就可以专注于其产品，并了解如何才能进行下一轮正式测试。

最后，从更长远来看，MLPerf Inference基准测试在未来几年内将趋于成熟（该组织目前尚未估计1.0何时准备就绪），这也意味着该基准测试将稳定下来，并且在芯片公司的性能实验室之外更容易使用。MLPerf组织已经发表评论说，他们将开发移动应用程序以加快对智能手机和其他智能设备的测试，并且我们期望桌面基准测试的情况也将日趋成熟。如果运气好的话，在不久的将来，我们将能够把MLPerf推理应用到我们自己的测试中，并将这些测试转换为有意义的结果，以比较消费类硬件。激动人心的时刻到来了！

雷锋网编译，via anandtech

往期推荐

▎张亚勤：告别微软百度后，开启人生 3.0

▎中国启动裁员，美国关闭CPU研发部门，三星手机就指望5G了

▎东软：中国第一家上市软件巨头的城市棋局

▎滴滴调整顺风车服务时间：所有用户20点后不能乘车；马云谈支付宝和微信竞争；iOS 13.2.2修复杀后台问题

你还在看吗？