查看原文
其他

腾讯优图吴永坚:迈向深度学习,我们面临模型训练与推荐的双重考验

整理 | 琥珀

出品 | AI 科技大本营

 

对腾讯优图的发展历程,吴永坚表示,优图是非常幸运的,幸运的同时也知道优图选对了方向,只要坚持,还是会有收获的。

 

12 月 15 日,以"新趋势、新技术、新应用"为主题的首届腾讯云+社区开发者大会上,腾讯优图实验室总监吴永坚分享了《计算机视觉在产业中的应用实践和前沿思考》。目前,腾讯优图在计算机视觉技术方面的产业研究和应用,涵盖了零售、安防、金融等领域的实际应用案例和经验。

 


以下为演讲整理,文章略有删减:

 

什么是计算机视觉?计算机视觉到底是一个什么样的问题?简言之,计算机视觉是一门研究如何让机器“看”的学问,涉及的重要一点是图像理解的技术。

 

大家也许会问为什么计算机视觉在近五年来发展特别快,同时也诞生了很多的创业公司?就本质来讲,计算机视觉能够将线上线下的东西关联,关联人、关联物,这是它能发展起来的一个重要原因。

 

简单介绍下,腾讯优图是腾讯旗下的一个顶尖 AI 实验室,主要专注于人脸、人体、交通、医疗、影像、自动驾驶等有关计算机视觉领域的前沿研究和落地应用,曾有过多次刷新的实验记录。

 

有几个数字需要了解:腾讯优图实验室可提供 12 个行业解决方案,接入超过 70 多个腾讯明星产业的产品,拥有超过 700 多个全球专利。

 

作为一个技术人员来说,我觉得这一组数据都是非常值得骄傲的。同时,实验室每年都会刷新一些新的世界纪录,在今年 10 月,腾讯优图推出了DSFD 人脸检测算法,在两个关于人脸检测的权威数据库 WIDERFACE 和 FDDB 上再次刷新世界纪录。

 

通过展示腾讯优图相关技术栈,可以看到腾讯优图聚焦计算机视觉,输出整体技术能力,希望覆盖到包括社交娱乐、安防、零售在内的各行各业。

 

尝试——从QQ空间到“天天P图”

 

在腾讯内部,我们最先落地的是社交娱乐,这也是我们这几年来一直去做的事情。优图团队在 2012 年成立,当时正处于 PC 互联网和移动互联网时代,我们需要不断将技术输入到 PC 端的相关应用中。而人脸技术在当时对腾讯甚至整个行业都很新。那我们为什么选择这个行业?选择人脸技术这个比较新的领域进行研究?

 

当时,我们发现 QQ 空间上有很多用户上传的图片素材,而很多用户公开的图片中有一半以上是和人的脸部信息相关的,比如自拍、合照等。我们认为这是下一个风口,需要提前布局。

 

虽然我们很早运用了人脸检测的技术,在 QQ 空间或 PC 端进行尝试,但怎么做都没有产生很大的价值。我们对选择的技术方向曾经有过纠结,但我们想既然用户上传这么多图片都有人脸,一定是我们没研究透彻,不等于它没有将来。

 

很幸运,我们等到了另一个移动端的爆款产品“天天P图”。随着 2015 年《武媚娘》电视剧火了起来,我们的技术如人脸美妆、人脸检测有了用武之地。可以说我们是非常幸运的,幸运的同时也知道我们赌对了方向,只要坚持,还是会有亮点的。

 

“天天P图”去年还做的一款变脸 H5 “我的军装照”,更成为现象级刷屏事件,访问量超过 10 亿次,作为创新方面的案例被人民日报重点收录。

 

延伸——从消费场景到产业端

 

从消费互联网到产业互联网,从基于消费场景的不断积累到探索产业场景的应用和落地,这成为腾讯多年发展历程里所经历的一个必然阶段。腾讯优图也开始尝试在产业互联网领域的落地,我们首先瞄准的是安防行业。2017 年,腾讯优图推出了面向治安管理场景的优图天眼智能安防平台,以及面向交通监督场景的智能交通平台。

 

以优图天眼智能安防平台为例,它支持上亿张人脸照的搜索,只要用户上传一张人脸照,就可以跟系统库进行核对反馈,毫秒级别识别速度,比如说对失踪老人和失踪儿童问题有很大的社会价值。我们在今年首届中国国际进口博览会上,以及深圳市人脸核审统一认证平台项目等等,得到了很多客户的认可。

 

除了安防外,我们还在零售领域进行了尝试。

 

这个赛道里最重要的一点就是如何连接好线上线下。如通过人脸检测设备,计算机视觉技术就可以做一个线上线下很好的关联,所以视觉AI将零售自然而言地关联了起来。

 

去年年底,我们跟腾讯云联合推出了“腾讯优Mall智慧零售系统”,可帮助企业用户打造“知人知面更知心”的智慧门店,借助计算机视觉能力为不同的顾客进行定制化推荐等。目前我们已与百丽国际旗下的滔博运动建立合作,今年 5 月,我们还联合微信支付为家乐福上海天山店提供了刷脸支付系统。

 

此外,我们还有在金融行业的尝试。

 

在金融领域最主要的应用是人脸核身的解决方案,它有效提升了银行、保险、证券等行业的核身效率。什么是核身技术?就是验证线下这个人是否是与身份证呈现的是同一个人的技术。这种技术包括身份证 OCR 技术、活体检测和人脸比对技术,综合保障人脸核身的准确性与有效性。目前我们跟腾讯旗下的微众银行有了很好的落地合作。

 

深化——深度学习模型推断与训练研究

 

刚才说了很多案例,接下来我介绍下腾讯优图在深度学习这股技术浪潮中对计算机视觉的研究与思考。

 

首先来看看图像在社交领域的探索。

 

短视频这一年非常火,如何进行实时装饰是一个非常大的技术挑战:

 

  • 第一点,需要有很高的计算精度,因为将装饰物投影到人脸上,看得到的人脸像素要非常稳,就是说从这一帧到下一帧,人脸位置尽量不能浮动,需要很高的精度;

  • 第二点是计算的速度,因为它覆盖了很多计算机型,需要一秒能够处理 100 帧以上;

  • 对模型的大小要求也非常高,因为现在前端的很多处理是放在手机端的,其容量及安装更新都有很大的限制,这就要求我们的大小只能控制在 5 兆以内。

  • 最后,就是需要特别广的平台支持,除了支持如苹果等高端机型以外,我们还要支持其他中低端的机型,至少实现90% 以上的机型覆盖。因为不同的机型计算芯片也不一样,对 CPU、GPU 都要有很好的兼容。

 

我们的首要诉求是,在面对移动端上的实时计算时,对人脸配置需要实时、兼容性好的深度学习前向推断框架。

 

同样在安防和商超场景的模型里,对人脸识别模型的需求也非常大。

 

  • 通过图中展示的学术里程碑,从 2012 年开始,深度学习的训练模型层数在不断加深,训练的能力也越来越强。从最开始的AlexNet/VGGNet模型,到最近的 DPN 结构,模型已经达到了上千层,并且有了更复杂的网络子模型。

  • 从优图的角度来看,业务持续落地带来更多的业务数据,2014 年我们训练的只有百万级别的数据,而现在已是 10 亿级别甚至更高,如果还是使用单机训练的话需要超过半年时间。

  • 在具体的场景里,如安防、娱乐、商超等,每个场景略有不同。如果对每个场景训练独立模型,周期太长,无法满足业务快速迭代的需求;此外百万级搜索参数规模已高达 4GB,带宽成为严重的通信瓶颈。

  • 面对计算、带宽瓶颈和大量定制化的训练需求,这需要我们要有一个大规模集群化平台统一训练和解决。

 

总结来讲,在传统机器学习迈向深度学习的过程中,我们始终面临模型训练与模型推断的挑战。现有的深度学习开源框架,面对这两方面的挑战,无法提供合适的解决方案。

 

实际上,我们内部研发了两个系统:

 

一个是高性能分布式训练平台RadpidFlow,可支持多机多卡训练,提供完整的定点量化解决方案。“定点量化”即意味着从原来的 32 位能够降到 8 位甚至更低,只有 8 位的训练模型才能更快的在前端跑起来,对带宽能够进行充分的利用。

 

另一个是跨平台的框架RadpidNet,能够针对不同的芯片异构设备进行深度定制和优化,资源占用少,计算速度快。

 

值得一提的是,去年,腾讯优图推出了一款移动端开源神经推断网络库 NCNN(RadpidNet的前身)。目前它不仅在业界所有开源深度前向推断框架中排名第一,而且已经被很多公司所应用,在今年被邀请加入了 Facebook ONNX 社区。当然,在我们看来NCNN还是有很多不能满足业务需求的,所以我们后来基于NCNN做了很多研发创新,形成了现在我们使用的RapidNet。

 

演进——性能不断提升,功耗持续优化

 

另外再说一下当前芯片的发展趋势。

 

大家经常会听到 CPU、GPU、AI 芯片,它们到底是什么关系?我简单总结一下芯片的发展趋势。

 

就芯片本身来讲,因面积有限,最开始 CPU 为保证通用处理性能会占用很多的控制单元,而这部分不是用来计算的,算力比较弱;到了 GPU 时代,也就是 NVIDIA 发展起来的一个重要时期,它能够把原来图形处理的设计单元与深度学习进行适配,算力强,但功耗比较高;再往后的专用 AI 芯片,专用卷积加速模块,为 AI 加速设计,包括很多的大公司或创业公司都在做这类的 AI 芯片。

 

通过腾讯优图过去几年尝试的真实场景中所积累的经验,可以发现两个很明显的发展趋势:

 

首先是性价比会越来越高,同样的价格,同一芯片所能提供的算力越来越强,这符合摩尔定律;但如果打通这些芯片横向对比,我们还发现一个规律,单位功耗所买到的算力也越来越高,也就是说,单位算力输出的情况下,功耗越来越低,这就引入了所谓“云+端”的概念。

 

这导致的另一个趋势是,计算力开始从云向端上走。如从前段时间的英伟达的GPU到现在的英特尔Movidus芯片和国内的华为海思芯片都在进行这方面的尝试,腾讯优图深度学习平台的研究方向也从原来的 CPU、GPU 往 AI 芯片的方向上走。

 

在 11 月初的腾讯全球合作伙伴大会上,腾讯优图推出了一系列智能硬件产品,其中包括优图人脸识别一体机、优图盒子及腾讯优图 AI 摄影机。通过软硬件协同,腾讯优图以更低成本、更佳性能和更优体验打造一体化的行业解决方案。

 

图中展现了我们当前在商超里面部署的三款硬件产品,可以看到:优图人脸识别一体机,可实现便利店无人值守自助进店、员工考勤签到等功能;优图盒子,通过摄像机进行前端人脸检测与识别,解决的是存量的问题;腾讯优图 AI 摄影机,解决的则是增量的问题,既可进行人脸检测,也可输出区域热力图。这是比较完整的软硬一体化的、“云+端”的商超场景下的解决方案。

 

目前,优图人脸识别一体机已经率先在上海佘山世茂洲际深坑酒店落地,用户只需“刷脸”就可完成会员注册与绑定、酒店用餐、结账免密支付等操作。

 

总结一下,腾讯优图以计算机视觉技术为核心,通过腾讯云以及腾讯 AI 开放平台将自身的 AI 技术能力输出给更多的开发者和企业,从最底层的计算平台,到中间的算法能力,再到安防、金融、零售、工业、教育等多个行业解决方案的能力输出。

 

最后打个广告,腾讯优图,你身边的视觉AI专家。

 

谢谢大家。

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存