查看原文
其他

揭秘Arm人工智能战略:不仅CPU/GPU会支持,还有独立的AI产品线!

2018-03-09 芯智讯-浪客剑 芯智讯


随着智能手机需要处理的内容变得日益复杂,用户对当今主流和入门级移动设备的要求已越来越高。而人工智能技术的日益成熟,以及边缘计算的兴起,使得人工智能成为了提升智能手机体验的重要法宝。目前众多的高端智能手机都已经开始引入人工智能技术。去年,华为、苹果等厂商都推出了集成人工智能核心的手机处理器,而作为全球最大的移动芯片IP提供商,Arm自去年以来也在不断的加码人工智能。


去年3月,Arm正式发布了全新的DynamIQ技术(详细介绍可参考此前文章《ARM全新DynamIQ技术详解:真正的人工智能手机要来了!》),加入了针对人工智能的指令集和优化库,ARM V8.2版本的指令集开始支持神经网路卷积运算,极大的提升人工智能和机器学习的效率。随后在去年5月底,Arm发布了首款DynamIQ技术处理器Cortex-A75/A55。今年2月下旬,Arm又宣布了针对人工智能的Project Trillium项目,推出了多款独立的人工智能IP。


2018年3月6-7日,Arm在北京召开2018全球技术发布会,再次详细介绍了Project Trillium项目,同时Arm还正式发布了全新的面向主流市场的图形处理器Mali-G52,以及面向入门级的Mali-G31。特别值得一提的是,Mali-G52还首次加入了对于机器学习的支持,进一步加码人工智能。而且新的IP套件可与现有基于DynamIQ的CPU和其他Arm IP无缝集成。


Project Trillium:全新人工智能IP


Project Trillium是今年2月Arm公布的针对人工智能的Arm IP 套件。包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。


得益于终端侧人工智能市场的快速增长,以及ARM在移动及物联网市场的巨大优势,Project Trillium项目目前主要针对的也是移动终端和物联网设备。


1、全新架构的机器学习处理器IP


根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。而Arm的机器学习处理器IP的推出则是顺应了市场对于专用的人工智能加速芯片的需求。



据介绍,Arm的机器学习处理器IP依托于Arm多年的研究成果,采用的是全新的架构,可以为其CPU和GPU遇到的挑战提供解决方案。该架构还为16位整数运算进行了优化。


根据Arm公布的数据显示,其机器学习处理器IP的性能最高可以达到每平方毫米(芯片面积)超过4.6 TOPs的性能,而且在实际应用中,结合系统及应用优化,可以实现2-4倍提升。



那么Arm的机器学习处理器的4.6 TOPs/平方毫米的性能属于一个什么水平呢?我们拿华为麒麟970所集成的NPU来比较一下。


据华为介绍,麒麟970集成的NPU专用硬件处理单元,设计了HiAI移动计算架构,其AI性能密度大幅优于CPU和GPU。相较于四个Cortex-A73核心,处理相同AI任务,新的异构计算架构拥有约50倍能效,以及25倍性能优势,面积只有CPU的1/2,运算能力达到了1.92TOPs。


根据Arm的资料显示,Cortex-A73是采用ARMv8-A架构中核心最小的处理器,每核心面积在0.65平方毫米。四个Cortex-A73核心,面积至少应该是2.6平方毫米。那么华为麒麟970的NPU的面积应该是在1.3平方毫米左右。换算下来,麒麟970的NPU每平方毫米的性能约为1.48 TOPs。也就是说,Arm新推出的机器学习处理器IP的单位面积性能可能达到麒麟970的NPU的4倍,确实非常的强悍。


另外,对于移动设备和一些物联网设备,能效也是非常重要的,Arm的机器学习处理器IP在能效上可以实现3 TOPs/W,Arm认为3 TOPs/W将是移动AI芯片的一个“甜蜜点”。


在Arm看来,其目前的主要优势还是在移动市场,而且现在很多AI创新都是从移动端发生的。另外,Arm的业务模式主要是进行IP授权,这就需要体量比较大的市场来支撑,显然目前移动市场对于人工智能的需求量最最为庞大的。所以Arm的人工智能处理器会先从移动市场进行切入。



根据Arm的机器学习处理器的路线图也显示,移动市场将会是Arm的机器学习处理器首先切入的市场。Arm透露,其首款针对移动市场的机器学 43 34351 43 15043 0 0 3401 0 0:00:10 0:00:04 0:00:06 3401处理器IP将会在2018年年中推向市场。


另外,Arm也表示,其机器学习处理器IP是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 GOPs到超过70 TOPs的产品。除了移动市场之外,Arm的机器学习处理器IP也将会开始向物联网、工业、汽车、网络以及服务器市场进军。


2、第二代的目标检测处理器


除了首次推出的机器学习处理器IP之外,Arm此次还针对安防监控市场带来了其第二代的目标检测处理器。其实早在2016年Arm就推出了其首款目标检测处理器Spirit,随后被其2016年收购的计算机视觉和图像处理器的公司Apical(其产品覆盖超过15亿设备)所采用,随后广泛的用于英国智能家居品牌Hive安防摄像头当中。如果说,Arm此前推出的目标检测处理器Spirit是一次试水,那么这次的第二代的目标检测处理器产品则将是Arm全面进军安防监控市场的开始。



根据Arm公布的数据显示,其第二代目标检测处理器可以支持全高清画质下60fps实时检测,支持50×60像素以上的无限数量的目标检测。其还提供了详细的人体模型提供了丰富的源数据,使人脸、方向、轨迹、姿势和动作检测成为可能。



Arm表示,其还可提供集成解决方案,采用其机器学习处理器+目标检测处理器,可以更高效的实现比如人脸、物体识别等应用。在实时目标识别任务中,目标检测处理器会首先分离出区域,比如人脸、物体。这样,机器学习处理器就能够分析更少的像素,以实现更快、更精细的结果。


3、神经网络软件库


Arm的神经网络库包括:CMSIS-NN,Compute Library和Object Detection Libraries。


CMSIS-NN是Arm提供的神经网络推理运算库,根据Arm此前的数据,其对于运行时间/吞吐量将会有4.6倍的提升,而对于能效将有4.9倍的提升;Arm Compute Library是Arm公司去年发布的开源工具,旨在为图像/视频/多媒体/计算机视觉等领域的开发者提供Arm平台的硬件加速库;Object Detection Libraries则是Arm针对其目前检测处理器的目标检测库。



据介绍,Arm的神经网络库可支持主流的神经网络框架,如TensorFlow、Caffe/Caffe2、mxnet等。此外,Arm的神经网络库还针对 Arm Cortex CPU、Mali GPU 和新的机器学习处理器和目标检测处理器进行了优化。通过以上这些主流框架,开发者可以轻松调用Arm的神经网络库API,从而发挥出Arm的AI/ML硬件IP的性能。


Mali-G52发布,Arm GPU首次加入了对于机器学习的支持


在3月6日的发布会上,Arm发布了两款全新的GPU产品:针对中端市场Mali-G52和针对入门级市场的Mali-G31。


其中,Mali G31是基于Arm此前只用于中高端产品线当中的Bifrost架构,是Arm目前最小的GPU,还加入了对于Vulkan的支持。可以说Mali-G31的推出是Arm首次将之前一些中高端产品的能力开始引入到入门级产品当中。


而Mali-G52则是Mali-G51的升级产品,不仅可从容应对更高的图形复杂度,允许在主流移动系统的功率和带宽限制内实现更多的机器学习功能。


根据Arm的资料显示,Mali-G52由于采用了更宽的执行引擎,相比前代产品的4线程,Mali-G52最多可提供8线程,可在相同芯片面积上,提供更高的图形性能,性能密度相对于Mali-G51提高了30%。另外,在能效方面,Mali-G52也提高了15%。这里需要指出的是,Mali-G52的面积是G51的1.2倍。



当然,更为值得关注的是Mali-G52首次加入了对于INT8数据类型的支持,再加上Mali-G52的执行引擎增加到了8个,使得其可以更加高效的进行进行针对人工智能的运算。


我们都知道,相对于CPU来说,采用GPU来做AI运算效率会更高一些。所以,我们看到Nvidia的人工智能计算卡主要也是基于GPU来运算的。



根据Arm公布的数据显示,与Mali-G51相比,在图形识别能力方面,Mali-G52的性能提升了3.6倍,在Yolonetwork卷积性能测试当中,性能提升了3.5倍。


近年来随着Arm GPU产品线的越来越强大,目前Arm的Mali系列GPU已经成为全球出货最多的GPU。根据资料显示,2017年Arm的Mali系列GPU出货超过12亿颗。随着此次,Arm首次使得其Mali-G52 GPU开始支持机器学习,相信后续将会有更多的新的Arm GPU也将会支持。


据了解,今年年中,Mali-G52 GPU就将会推向市场。


将人工智能带入到每一个设备当中


Arm认为机器学习正变得日益普及,可跨越多个设备,触达每一位用户。而Arm的愿景则是让将机器学习在更多智能设备中普及。


目前一些高端智能设备当中的人脸识别、物体识别、指纹识别、用户习惯学习等应用都有用到机器学习,有些厂商还在SoC上配置了独立的人工智能处理器来进行加速。但是对于目前的主流智能手机市场来说,都配备专门的人工智能处理器并不实际,所以这些任务可以交给SoC上的其他单元来进行 ,比如DynamIQ CPU和Mali-G52 GPU,以提升现有应用的机器学习性能。


Arm资深市场营销总监Ian Smythe先生也在会上表示:“对终端设备而言,支持丰富的多层用户界面以及一系列广泛的最新应用已成为必然趋势。更为重要的是,机器学习不再是高端智能手机的专有配置。各级用户都希望轻松使用配备机器学习功能的各类APP应用。”


当然,对于需要用到专用的人工智能处理器的设备和市场,Arm此次也推出了Project Trillium项目,推出了专用的独立的机器学习处理器IP和目标检测处理器IP。并且,Arm的机器学习和目标检测处理器IP是具有高可扩展性、兼容性和可编程的,可以覆盖更为广泛的市场。


另外值得一提的是,Arm此次推出的新的Project Trillium项目的IP套件可与现有基于DynamIQ的CPU、Mali-G52 GPU和其他Arm IP无缝集成。



根据IDC的研究数据显示,目前90%的具有人工智能能力的设备都是基于Arm的(主要是基于ARM的CPU/GPU)。而随着Arm将人工智能的能力带入其GPU产品,以及Project Trillium项目的推出,再加上去年就推出的针对人工智能优化的DynamIQ CPU,未来这一比例可能将进一步提升。


显然,从前面的一系列介绍,我们不难看出,现在的Arm已经开始全面拥抱AI,并希望通过AI获取更大的市场份额。


得益于Arm在移动CPU及GPU市场的领先地位和生态优势,随着Project Trillium的推出,Arm的人工智能IP或将成为Arm一条全新的产品线,而且随着人工智能在终端侧的快速发展,未来其有望成为与Cortex系列CPU、Mali系列多媒体IP并驾齐驱的第三大产品线。


作者:芯智讯-浪客剑

相关文章

苹果2018供应商责任报告(附769家供应商名单及源文件下载)

台积电/三星/GF纷纷冲刺7nm,但EUV光刻工艺仍是配角!

突发!美国CFIUS要求高通股东会延期,将全面调查博通收购案!

台湾面板与半导体两大优势产业即将被大陆超越

高通收购NXP将封死中国集成电路企业高端发展路径?

年出货1.2亿台手机的传音控股为何会借壳新界泵业?会顺利通过吗?

浅析国产内存产业现状:三大阵营成形,崛起之路仍任重道远!

高通宣布出售条件:收购总价提高至1600亿美元,还要准备144亿美元分手费!

达成5G全球战略合作!展锐再度携手英特尔发力高端市场

5G已来!华为发布首款5G商用芯片和终端!

豪掷90亿美元!吉利拿下奔驰母公司近10%股份,成其第一大股东!

ARM推出可集成在SoC中的iSIM技术!能否取代传统SIM卡?

高通对恩智浦志在必得:收购价提高至440亿美元!

高通发布骁龙X24 LTE modem:7nm工艺,下载速率高达2Gbps!

行业交流、合作请加微信:xintiyan001
投稿请发至:yj@padnews.cn
芯智讯官方交流群:221807116

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存