想靠AI走上神坛的英伟达,四面楚歌~
关注我们,思考像钟摆,永不停歇
阅读关键词:英伟达、AI芯片、云端、终端
昨天,“皮衣加身”的黄教主在苏州迎来他的众信徒。
自信满满、“指点江山”的黄教主
在“GTC CHINA 2018”的“传教”盛典上,教主精神饱满的介绍了英伟达GPU产品的最新进展,包括基础技术:深度学习、AI 框架与研究、开发工具、加速数据科学、数据中心和云计算基础架构、HPC和超算的开发情况,以及终端赋能,包括智能机器与物联网和机器人、自动驾驶、专业图形应用、工业制造与建筑工程等领域的应用。从布局来看,英伟达想要打造AI神话。
同时,教主主要传达两个“教义”:英伟达全面发力AI,未来AI离不开英伟达。但事实可能是,英伟达确实离不开AI,但AI可以离开英伟达。
虽然从产业图谱来看,英伟达在除IP核之外的端侧推理、云侧推理和云侧训练全面涉足,但哪一块的业务都不是板上钉钉的绝对优势。
其中,云侧训练因为GPU具有天然的算力优势,占有接近绝对的份额,但也有潜在风险。在推理侧,GPU的优势就很不明显了,CPU、FPGA、ASIC,以及NNP可以实现替代,甚至达到更优越的性能。而在终端侧,虽然英伟达一直在多个领域发力,但目前主要被看好的还是智能驾驶。
云端推理/训练
GPU:英伟达&AMD
英伟达在云端训练层的垄断地位比较难撼动,但在推理层仍具有很大的提升空间。目前,英伟达正在借由开源DLA将其AI领导地位从训练延伸至推理。为此,去年5月英伟达发布了全新Volta架构GPU——Tesla V100,是史上规模最庞大的GPU。Tesla V100包含640个Tensor核心(密集运算器),可为训练和推理应用提供125 Tensor TFLOPS。
TeslaV100
而英伟达的GPU老对手也一直在推理端发力,本月初,AMD发布全新一代Radeon Instinct MI60、Radeon Instinct MI50,均基于7nm工艺的升级版Vega架构核心,作为全球首个7nm GPU,拥有灵活的高性能、世界最快的FP64/FP32 PCI-E浮点性能、机器学习训练和推理、显存和扩展性、唯一的硬件虚拟化、端到端的ECC纠错保护。据官宣,这款GPU性能同时超越或者基本持平Tesla V100。
Radeon Instinct MI60
FPGA:英特尔&赛灵思
今年上半年,英特尔Microsoft推出基于Project Brainwave的Azure机器学习硬件加速模型,并与Microsoft Azure Machine Learning SDK相集成。在使用Azure大规模部署的英特尔FPGA技术之上,可为模型提供人工智能推理性能。
除了FPGA,英特尔在CPU云侧推理上也表现出卓越性能,其基于至强处理器EC2平台,推理延迟和推理成本在斯坦福大学的DAWN Benchmark测试成绩均为第一。
作为全球FPGA芯片巨头的赛灵思不久前也推出专为云端推理的AI芯片。这款名为Versal的FPGA基于台积电7nm工艺打造,结合了软件可编程性和针对特定领域的硬件加速以及快速创新所必须的高度适应性。此外,其具备的高度可扩展性,实现了满足包括云、网络、边缘计算、无线通信和终端节点等各种应用市场需求的AI推理性能。
ASIC:谷歌
截至目前,谷歌已经推出了三代针对AI的TPU处理器。今年5月新推的TPU3.0比上代性能提高了8倍。而从TPU2.0开始,具备了既可以用于训练神经网络,又可以用于推理的能力。相较而言,初代TPU只能做推理。
在谷歌推出TPU 2.0之前,Yann LeCun曾质疑市场是否需要新的AI专用芯片,毕竟开发者已经对使用GPU所需的工具非常熟悉。但TPU3.0推出后,这款芯片已经成为为英伟达GPU的可完全替代品。
NNP:英特尔
在今年首届AI开发者大会AIDC 2018上,英特尔新款云端AI芯片NNP(神经网络处理器)发布,代号为“Spring Crest”,主打机器学习训练,功耗小于210瓦,比上一代产品Lake Crest 在训练方面有3-4倍的性能提升,这款产品在训练上对标谷歌TPU3.0。
该芯片将于2019年下半年向用户开放。
端侧推理
英伟达:英伟达针对推理计算更新开发工具 TensorRT至4.0,并与TensorFlow深度集成,面向 Kubernetes 的GPU 加速,从而自上而下的对训练、推理兼顾,扩张版图,在数据中心加速市场中布局推理端。
NVIDIA DRIVE AGX Xavier
目前,其端侧推理主要应用于自动驾驶。GTC China大会上,黄教主宣布DRIVE开发系统已经上市,有超过370家公司在自动驾驶中使用DRIVE平台。与沃尔沃、小鹏汽车、奇点和SF Motors的合作,以及与自动驾驶初创公司Weride、Momenta、Auto X等合作。
地平线:地平线目前主要研发嵌入式人工会智能视觉芯片,性能上实现1080p@30fps实时目标检测、识别、跟踪,每帧超过200个目标检测/跟踪能力,功耗小于1.5W。
征程1.0处理器
公司推出的征程1.0处理器面向自动驾驶,可同时对行人、机动车、非机动车、车道线、交通标识牌、红绿灯等多类目标进行精准的实时监测和识别,实现FCW/LDW/JACC等高级别辅助驾驶功能。
高通:高通的人工智能研究专注于终端侧,包括感知、推理、行动。最早进行大脑脉冲神经网络的研究,后续进入到深度学习/终端侧深度学习领域,发布了Qualcomm骁龙神经处理引擎SDK。
高通骁龙845
目前,高通骁龙SoC在移动领域具备强大技术优势,已经实现规模化量产。而以手机端的人工智能为基础,高通也想将其端侧处理方案延伸至智慧城市、工业物联网、VR、无人汽车等应用场景。
云知声:云知声在2014年提出“云端芯”的技术架构体系,通过云端服务、设备端应用以及嵌入式硬件面向IoT领域构建完整的语音AI解决方案。主要搭载自主AI芯片,通过提供标准化的人机交互产品对接接口,提供端和云两侧可定制的解决方案。
云知声首款面向IOT的AI芯片雨燕
目前云知声的芯片在终端实现推理算法,主要为IoT设备被赋予AI能力。今年5月,推出首款面向IoT的AI芯片,采用云知声自主AI指令集,可提供面向物联网跨设备形态的AI感知能力及本地推理能力。
总结
综上,虽然英伟达在云端训练上占据主导,但要直面同样能力不俗的TPU和主要针对训练能力的NNP的竞争。
云端推理上,并不需要GPU强大的算力,英伟达的优势就不明显了。CPU可以承担接近一半AI相关应用的负载,成本上比GPU更加低廉。FPGA、Asic也都具备云端推理的优势。
此外,除了本国友商,英伟达还需要将目光投向彼岸,中国的华为、阿里巴巴、百度等本是英伟达的大客户,但目前都已涉足AI芯片。虽然还没有出货,但从产品性能来看,完全不逊色,比如华为最新发布的昇腾910,算力远高于NVIDIA V100,达到了翻倍的256TFLOPS,而阿里巴巴正在研发的神经网络芯片Ali-NPU,将运用于图像视频分析、机器学习等AI推理计算,如果性能优越,也会给GPU带来冲击。
在终端侧,英伟达想要进军国内市场,也要面对来自地平线等企业的竞争。
丢掉了矿机业务的英伟达,想要靠AI走上神坛,没那么容易。
本文由“机器人文明”出品
转载请注明出处
长按二维码加公号,后台留言微信号,入群“AI大爆炸”
往 期 精 选
让女性“背锅”,俞敏洪老师还要带偏人工智能?
一文详解英特尔AI布局
AI顶级大牛吵翻天?三个男人,数度“厮杀”……五年十大收购案,谷歌的”AI野心“从未发现,AI竟然还可以这样玩!(附直通玩耍链接)
我是广告:欢迎给“机器人文明”投稿~
好文请投:tougao@gsi24.com
— 完 —