查看原文
其他

产业理解 | 从CVPR2017看人工智能产业现状和趋势

sixgod 计算机视觉life 2019-06-23

   欢迎关注计算机视觉life


2017年7月21-26日,人工智能(Artificial Intelligence,AI)领域全球最有影响力的会议之一 :CVPR2017 在夏威夷举办。今年的CVPR是迄今为止规模最大的一届,这个规模不仅包括同比40%增长的论文提交数、37%增长率的参会注册人数,还有惊人的同比30%增长率的赞助商,以及更加惊人的79%增长率的赞助费。具体见下图:

CVPR2017规模同比大幅增长


作为人工智能领域学术界和产业界的共同盛会,CVPR不仅呈现了计算机视觉、自动驾驶、深度学习、语音识别、医疗影像、大数据等细分领域最前沿的学术研究成果,同时也是各大科技巨头和创业公司展示自家产品业务秀肌肉的一个综合舞台。


本文就本届CVPR的一些见闻来探讨一下人工智能产业的现状和趋势。


华人在AI领域快速崛起

据粗略统计,在本届会议的 783 篇录用论文中,华人学者参与并署名的论文约为356篇,占比约为45%。另外,在81名CVPR2017主席的名单中,我们看到了张正友、陈熙霖、华刚、贾佳亚、孙剑、吕乐、周少华、朱松纯等多位华人大牛的名字。微软全球执行副总裁沈向洋在本届大会发表主旨演讲。


部分参加CVPR2017的华人学者,图片来自视觉求索公众号


本次大会不仅学术界出现了越来越多的华人身影,产业界也有大量的优秀华人企业。以本次大会的赞助商为例,铂金和黄金赞助商里华人企业占了18家,比例达到了40%(见后面具体赞助商)。在这些华人企业赞助商中,除了几家传统的互联网巨头外,有不少是迅速崛起的新创企业,他们不仅在产业界非常活跃,也非常重视相关学术理论的前沿探索,有不少论文发表在本次学术会议上。


此外,CVPR 2021 主办团队归属华人,其中中科院谭铁牛院士担任大会主席,上海科技大学的虞晶怡教授担任程序主席。这充分展示了华人在人工智能领域的巨大影响力,也侧面印证了国际顶级学术会议CVPR对华人在人工智能领域做出贡献的认可。


这一波人工智能浪潮中,华人紧紧的抓住了机会,在学术界和产业界全面开花,在很多细分领域都处于世界第一梯队。但是也有一些不足之处,比如学术界华人虽然论文数量具有绝对优势,但是重大突破性创新工作却不多。现在国内人工智能概念被过分热炒,大量热钱涌入,人人言必称“人工智能”,学术界浮躁,产业界鱼龙混杂,以人工智能为幌子的挂羊头卖狗肉现象也不少。不过我们要相信市场优胜劣汰的自然选择力量,量变到质量也需要一定过程,人工智能从业者要摒弃浮躁,沉淀下去,脚踏实地,一步一个脚印


产业界学术界,无界可分

先从产业界说起,CVPR本身作为一个国际性的学术界盛宴,吸引越来越多的企业的关注和参与,本届会议这么惊世骇俗的增长率有很大一个原因就是产业界的推动。


官方还未公布今年的实际参会人数,以2016年的数据做参考:CVPR2016总共注册参会人数3600人,其中37%来自产业界,有35%是纯学术,28%是混合身份。从赞助商和赞助费的大幅增长来看,CVPR2017产业界的占比会更大。


如下图所示是今年所有的赞助商,其中来自中国本土的公司已经被红圈圈出。中国的赞助商既有BATJ(百度、阿里、腾讯、京东)等大型互联网公司,还有众多初创企业,比如驭势、格灵深瞳、滴滴、Momenta、亮风台、大疆等,涵盖了人工智能大产业里无人驾驶、AR/VR、计算机视觉、语音识别、大数据、机器人、医疗影像等多个领域。


CVPR2017的赞助商,红圈内为华人企业


然后来说说学术界,最近几年学术界大牛进入产业界已经司空见惯,随便举几个例子:


  • 吴恩达(原斯坦福大学人工智能实验室主任)出任百度首席科学家,后退出创立Deeplearning.ai

  • 颜水成(原新加坡国立大学教授)出任360人工智能研究院院长

  • 孙剑(原微软亚研院首席研究员)加入旷视科技担任首席科学家

  • 芮勇(原微软亚洲研究院副院长)出任联想CTO

  • 李飞飞(斯坦福大学人工智能实验室和视觉实验室主任)加入Google,任Google云机器学习负责人

  • Yann LeCun(纽约大学教授,卷积神经网络发明人)出任Facebook人工智能实验室负责人


以上是比较知名的学者进入产业界的代表,还有更多学者自己或联合创立人工智能初创公司。


值得一提的是,今年CVPR的两篇最佳论文都有产业界合作的背景,分别被授予了如下两篇论文:一篇是由康奈尔大学、清华大学、Facebook人工智能研究院合作完成的论文《Densely Connected Convolutional Networks》;另外一篇是苹果公司的《Learning from Simulated and Unsupervised Images through Adversarial Training》,一向以封闭保密著称的苹果公司首次公开发表人工智能相关的论文就一击即中,并且获得了最佳论文奖,可见苹果公司在人工智能领域的强大实力,这或许也标志着苹果公司未来新的研究方向。


学术界、产业界的界限越来越模糊,个人认为这是一个好的现象。


CVPR2017会场紧挨的poster展区和企业展区


一方面,产业界急需学术界的重大创新突破来解决技术落地的瓶颈。这一轮人工智能革命的最直接源头就是多伦多大学的Geoffrey hinton教授2007年发表在《认知科学趋势》上的论文,然后斯坦福的吴恩达教授使用超大规模分布式集群计算解决了深度神经网络的计算问题,斯坦福的李飞飞教授建立了一个海量的带标注的图像训练库ImageNet,成功的训练出视觉识别能力超过了其他所有的算法,也第一次超过了人类。所以说,没有学术界的重大突破,就没有这一轮的人工智能产业大爆发。


另一方面,产业界可以提供学术界提供不了的资源,比如海量的训练数据、超大的用户规模。人工智能技术在产业界的广泛应用一方面创造了巨大的社会价值,一方面也收集了更多的用户数据用来更好的训练模型,从而不断的改进优化现有的算法。这是一个双赢的结果


国际学术会议正逐渐成为学术界与产业界连接的最佳平台


那些看起来很美的技术能否落地?

本届大会的产业展示上,各大公司纷纷卖力的展示自己最新的产品和demo。今年的人体姿态估计/骨架提取是一个大热门,卡内基美隆大学开源的OpenPose demo展示了极好的效果,如下:


OpenPose demo


此外,不少科技公司也展示了各种炫酷的demo,举几个比较有名的:加拿大的wrnch公司展示了他们的demo:BODYSLAM,可以根据2D的视频恢复3D的人体运动姿态,商汤科技展示了其人体姿态分析demo:sensePose。管中窥豹,人体姿态估计未来几年可能是学术界和产业界追逐的一个热点,很快会有不少的应用场景。


此外,自动驾驶仍然是火的一塌糊涂,百度、Honda、 Uber、驭势科技、 滴滴、 地平线机器人、 图森、Momenta等公司都有炫酷的demo展示。会议期间也举办了多个自动驾驶的workshop。

CVPR关于自动驾驶技术的workshop


随着TensorFlow、caffe、MXnet等开源深度学习框架的快速发展,创客们在人工智能领域的创业门槛 逐渐降低,人工智能概念在资本市场一下子变的炙手可热,创业公司大量涌现,在投资人热钱的助推下,许多打着人工智能为旗号的创业公司刚成立不久,估值都已经飞到天上去了,有些创客忙着在各种场合秀各种炫酷的PPT借以获得投资者的青睐,可能还没有一个清晰有效的盈利模式。


看多了炫酷的demo和PPT,我们心中不免升起一团问号云,到底这些技术能用在生活中的哪个方面?什么时候能够商业落地?能否解决用户的痛点?而我们作为一名学术研究者/产业内从业者/创业者,我们面对眼花缭乱的新技术,如何选择合适的科研/工作/创业方向?这也是很多人的一个疑问。


借用吴甘沙谈人工智能方向选择时说的话,人工智能是一个很宽泛的概念,最好选择一个细分领域,想要能够商业落地有三个标准:


  1. 未来五年一定能够大规模产业化,技术上没有大的瓶颈

  2. 市场必须足够大

  3. 能够给社会带来直接或者间接的价值


这三个标准的要求还是挺苛刻的,也给我们多了一个判断标准。在资本的热潮下,看似每个人都是时代的弄潮儿,泡沫退去,才能看清到底谁在裸泳。泡沫退去,纵使你有再炫酷的PPT,再豪华的团队,没有踏实落地的产品,一切都是个响屁:动静很大,关注度也很高,结果除了一片哀怨,什么都没有留下。虽然不可避免有泡沫存在,但从业者只要擦亮双眼、充分调研再行动,还是可以绕过很多坑的。


在人工智能领域,中国不缺优秀的学术大牛,也不缺懂商业的产业大牛,缺的是如何把先进的学术理论转变为可以踏实商业落地的人才,这一步其实很难,既要懂学术也要懂商业市场,还要有宽广的视野和洞见未来的能力


人工智能正在从云端迈向终端


深度神经网络模型的训练和部署,通常需要计算能力超强的GPU集群,想要在移动设备上部署实用实时的深度神经网络一直是件非常困难的事情。导致目前很多算法工程师都在做优化的工作,好钢没用在刀刃上,这是一种人才资源的浪费


在软件框架层面,今年4月份的F8 年度开发者大会上,Facebook 发布了一款全新的开源深度学习框架 Caffe2。它最大的特点就是轻量、模块化和扩展性,即一次编码,到处运行。说得更直白一点,就是 Caffe2 可以方便地为手机等移动终端设备带来 AI 加持,让 AI 从云端走向终端。


在移动计算硬件方面,Intel 7月21日在CVPR2017大会现场首次发布了Movidius神经计算棒,这是世界上首个基于USB模式的深度学习推理工具和独立的人工智能加速器,售价79美元,在大会上开放购买后瞬间被抢光。


说到这里,不得不提一下Movidius这家公司,Movidius是Intel去年9月份收购的一家计算机视觉创业公司,它也是Google project tango中3D传感器技术背后的功臣,目前已经和Google、联想、大疆签订了合作协议。


外形小巧的Movidius神经计算棒专为产品开发者、研究人员和创客设计,支持caffe框架,提供专用高性能深度神经网络处理性能,从而减少开发、调优和部署人工智能应用的障碍。


外形小巧的Movidius神经计算棒


Movidius神经计算棒的核心是内置的Myriad 2 VPU(视觉处理单元)提供了强大且高效的性能, 可以在1瓦的功率下提供超过每秒1000亿次浮点运算的性能 ,从而可以在终端设备上直接运行实时深度神经网络,这使得各种人工智能应用都能离线部署。这无疑极大方便了人工智能的产品开发者和创客们。


算法是AI战争的后盾、数据是AI战争的弹药、集群是AI战争的枪炮


人工智能有三大要素:算法、数据、计算能力。算法是安身立命之本,数据是算法研发的原料,计算资源保障算法能快速且大规模处理大量数据。


先说说算法。算法是AI战争坚实的后盾。目前开源的人工智能算法平台有TensorFlow、Caffe、MXnet等,这些架构是人工智能算法的基础设施,普通的开发者可以拿来直接用到某个细分领域,一般也能达到一定的性能,极大降低了应用开发的门槛。但是如果想要达到商用,还需要该细分领域算法工程师结合该领域专业知识进行不断的改进和优化。而这一步往往是非常困难和关键的,需要不断学习最新的学术成果提升性能,同时要解决很多实际的应用问题(鲁棒性、实时性),满足客户苛刻的要求。随着技术的发展,一些细分领域也有越来越多的开源商用算法。以应用最广泛的人脸技术为例,就有百度、微软、腾讯、旷视、虹软等公司的开源商用人脸技术。


然后说说数据,数据是AI战争的弹药,这话一点不夸张。2012年底,Geoff Hinton的博士生将深度卷积神经网络用在大规模视觉识别竞赛ImageNet上,取得了最佳的分类效果,受到业界极大重视。这得益于这个世界上最大的带标注的图像识别数据库ImageNet,使得算法“见多识广”。深度卷积神经网络迅速席卷学术圈和产业界,并且在多个领域都取得了极佳的效果。这也解释了为什么现在人工智能领域较好的论文几乎都有和产业界合作的背景的原因,尤其以拥有大量用户和网络数据的Google、Facebook、腾讯、百度等互联网巨头为主,这是因为这些巨头们有别人没有的数据资源,这也是吸引大量学术大牛进入产业界的一个重要因素。因此很多AI创业公司花费了大量的人力财力来建立标注团队和工具,或者采用众包的方式来获取数据。


集群是AI战争的枪炮,说的就是计算资源,这里主要指GPU(图形处理单元)计算集群。用于人工智能的训练数据集一般非常大,比如著名的图像分类库ImageNet就有多达1400万张图片,要想训练这样规模的数据集用普通的CPU来训练就像是用小米加步枪来装原子弹,因此必须使用多个GPU训练。GPU集群可以大大缩短算法开发周期,加速产品更新迭代,这对于分秒必争的AI公司来说至关重要。因此,虽然搭建GPU集群的成本非常高,不少大公司和土豪创业公司搭建了成百上千片的GPU,甚至专门设有高性能计算部门,用于提升GPU集群性能。


新时代的人才争夺战

21世纪什么最重要?人才!人才!还是人才!


目前国内还没有专门的人工智能专业,国内人工智能的从业者从数量和经验上都不足,但公司对优质人才的需求非常强烈,因此对人工智能人才的争夺成了相关公司布局人工智能产业的重中之重。


在这样的背景下,以往学术圈较封闭的学术会议,尤其是顶级会议,最近两年一下子涌入大量人工智能公司赞助商。这是一个极佳的策略,不需要太多的赞助费(相对于传统广告)即可以在人才荟萃的学术会议上扩大自己的影响力,宣传自家的产品和技术,还能顺便敞开产学研合作和招聘的大门,对上可以和优秀的大学科研院所教授进行深度合作,对下可以提前锁定许多还未毕业的硕博士,可谓一举多得。这种精准的营销和招聘远比传统的大海捞针方式更加经济和有效


此外,人工智能人才的招聘还呈现出社群化趋势。由于人工智能算法快速的更新迭代,以及大量从其他行业涌入的新生力量,因此出现了很多社群圈子,比如VALSE的QQ社群,通过定期线上分享高质量学术报告等方式,聚集了一万多人工智能领域大量的华人学者和在读硕博士。此外,不少创业公司和科技自媒体也通过微信群,QQ群,直播平台等方式聚集人工智能人才,这些资源为公司储备了源源不断的优质技术人才。


相关阅读

CES Asia 2017 | 细数不能错过的新科技

MWCS 2017 | 隐形指纹识别、时光/光绘相机、激光投影手机、VR眼动追踪、无人机竞速。。。




      IOS用户打赏通道

如本文对你有用,欢迎打赏、转发、分享


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存