编者按:随着深度学习技术成熟,国内计算机视觉领域的初创公司雨后春笋般涌现。在微软亚洲研究院院友会上,微软全球执行副总裁沈向洋与5位微软亚洲研究院的院友:商汤科技联合创始人兼CEO徐立、旷视科技创始人兼CEO印奇、旷视科技首席科学家孙剑、中科视拓的董事长兼CTO山世光、依图科技业务技术副总裁吴岷坐在一起,共同探讨了计算机视觉领域的发展现状和未来的挑战。
本文授权转载自36氪(微信公众号:wow36kr),作者石亚琼。
计算机视觉技术从提出到如今,已经有51年的历史了。深度学习算法出现,对其推动作用巨大。未来五年计算机语音有望会超过人类,但在计算机视觉领域,可能还有一段路要走。其中人脸识别领域,中国现在做得特别好,那么人脸识别是否已经全面超越人类识别?
综合几位嘉宾的观点,答案是陌生人识别技术上,可能在一定程度上超越人,但在熟人识别中,技术还有不少提升的空间。
徐立认为,陌生人识别技术上,可能在一定程度上超越人,但是人类真的认识人的过程当中,其实特别是熟悉的识别,远远不是现在技术能达到的。不过,这并不一定会影响到技术商用,每一个阶段都有那个阶段的“技术成熟”。比如,十年前人脸识别就已经在诸如海关等场景中运用,当时的准确率是53%。而随机猜的概率是50%。各个阶段有各个阶段不同的“技术成熟”,而现阶段在一些场景中人脸识别已经可以应用。
商汤科技联合创始人兼CEO徐立
印奇认为,AI领域,小到人脸识别,在接下来的商业路径里面,都会跟场景紧密结合。将人脸整套系统、软硬件一起来看,已经有很多创业团队开始落地,在这些场景中,局部是可以与人进行比较的,而在未来两三年,在一些刚需场景下,是有机会做的非常好的。
山世光也表达了类似的观点。陌生人识别领域,特别是这个人相对比较配合的情况下,机器的能力肯定是超越人了,但在熟人场景下,就很难达到这样的水平。据说,此前有人表示,让家里的机器人识别家里5个人也很难做到100%识别。因此,人脸识别可能还有很多需要去做的地方,但在特定应用场景下面识别已经做得很好了。
中科视拓的董事长兼CTO山世光
其实,在熟人识别的领域,人眼识别也不一定做的好。 吴岷就曾遇到这样的案例,在一个警察客户那里,一个小伙子在系统里搜寻了下女朋友的近照,为了保密,系统不显示身份证和名字,只显示人脸,结果屏幕上出现了12张脸,其中人脸的照片还是10年前或者20年前的身份证照片,最后帮他解围,在系统中把名字显示出来,看到排名第一的就是他女朋友。
依图科技业务技术副总裁吴岷
而基于现在的技术,也有一些新的需求逐渐显现。比如,警察客户就向依图提过需求,能不能识别尸体照片;也有其他客户向中科视拓提过类似的要求,当时人脸识别还纠正了部分基因检测的错误。在这些新的场景中,人脸识别就远谈不上人眼识别。
当然,人脸识别主要有三个落地的方向:云端平台、终端、垂直场景应用。那么从什么方向、什么切入点切入去创业更有机会呢?
其实,几家知名的公司目前基本都是在围绕垂直场景做服务、做应用,尤其是在安防、金融领域。这很可能也是几家公司的主要收入来源。
旷视科技从2011年开始创业,经过六年的发展,印奇认为目前值得专注的行业有2.5个,分别是金融行业、安防行业、手机应用(0.5)。金融行业整个业务都是线上化的,已经完成了信息化、联网化,这一领域无论是人脸识别,还是智能风控,都是以云为主。安防行业,基本上以线下摄像头连接和智能化为核心,这是非常线下的生意。另外0.5个行业则是与手机相关的,包括APP、AR应用,之前这个行业是叫好不叫座,因为竞争激烈,目前都不怎么赚钱,iPhone X出来之后,教育了市场,也许有机会在每一个垂直行业里面做精准。不管哪一方面,AI公司能够形成壁垒,一定要触及数据,云不是一个简单API对外的服务,一定需要是SaaS,是完全数据闭环的服务。
旷视科技创始人兼CEO印奇
在垂直场景中,尤其是安防场景中,云加端成为一个较为普遍的模式。徐立认为云加端的模式是未来AI技术企业发展的最好模式。 以安防为例,当前全球安防摄像头约两亿五千万支,预计2020年仅中国所有的室内外摄像头就有可能达到10亿支,如果按现在的模式,每个人都要盯住一个摄像头,所以完全集中化可能性不高,需要在端上面一定的布局和真的前置化的一些运算。
依图目前的模式也是既有云又有端,做垂直场景应用落地。在金融方向, 依图的SaaS服务,对接了Azure等云服务,接入了200多家互联网金融远程合成业务。在安防领域,也做了警务通等应用,帮助客户解决真正的问题。
人工智能做到最后往往都是感知和认知。很多感知和认知都是和人脸连在一起的。人脸比较特别的一点是,通过人脸就可以看出你的情绪,是不是生气,是不是沮丧,是不是开心。
山世光认为,人脸识别的前端是感知,后端是认知。但是从目前来看,计算机视觉方向,能做的还多是感知。表情识别很难比人做得好,现在也暂时没有做得比人好的,主要原因是因为标注专业人员不太够,造成标注数据不够。通过其他的方法,也可以感知到人内心的情绪。比如,利用高速相机捕捉到一些人眼不能够感知到的微妙变化,然后进行解析。
孙剑也在思考类似的问题:为什么感知到现在做不好,到底是因为没有数据,还是其他原因?在他看来,下一步机器人要和人交互,一定要解决这个问题,这是值得投入精力去研究的问题。
旷视科技首席科学家孙剑
不过,作为CEO,印奇和徐立,就没有那么担忧这个问题了。印奇认为,即使是这类非常难的问题,也有可能用非常工程化的方法解决,不一定要用最难的技术,反而可以用性价比更高的方案来解决。徐立的观点与之类似,认为必须根据实际的需求定义问题,同时要解决问题,超越工业应用的红线。
你也许还想看:
感谢你关注“微软研究院AI头条”,我们期待你的留言和投稿,共建交流平台。来稿请寄:msraai@microsoft.com。