不止于刷榜,三大CV赛事夺冠算法技术的“研”与“用”
(由AI科技大本营付费下载自视觉中国)
在 5 个月时间里(5月-9月),创新工场旗下人工智能企业创新奇智连续在世界顶级人脸检测竞赛 WIDER FACE、物体检测竞赛 PASCAL VOC、图像分割竞赛 Cityscapes 中取得三冠的佳绩,体现了创新奇智人工智能算法能力,尤其是在计算机视觉领域中算法的创新和设计能力。
一、AInnoFace 人脸检测算法:权威数据集 WIDER FACE 最新排名第一
人脸检测是人工智能算法最重要的商业场景之一,也是计算机视觉领域中非常热门和具有挑战性的问题。为提升人工智能算法精度,彰显其人工智能技术实力,很多 AI 公司都会选择在公开数据集上验证自身的算法能力。
在众多数据集中,由香港中文大学于 2016 年建立的 WIDER FACE 是目前业界公开的规模最大、检测难度最高的人脸检测数据集。该数据集共包含 32,203 张图像和 393,703 个人脸标注。其中,40% 的数据为训练集(Training),10% 的数据为验证集(Validation),50% 的数据为测试集(Testing),而每个集合中的数据根据人脸检测的难易程度分为“Easy”,“Medium”,“Hard”。
WIDER FACE 的数据集更贴近现实场景,识别难度非常大,典型例子如下图所示。
从图片中可以看到,该数据集汇集了人脸尺寸、拍照角度、人脸姿态、人脸遮挡、表情等各种变化,还有不同类型的光照污染、强弱差异,以及多样的化妆风格等影响因素,因此该数据集在全球人脸检测领域极具挑战性,也极具权威性,每次评测都会吸引国内外高校和科技企业一较高下。
近日,世界权威的人脸检测公开评测集 WIDER FACE 公布最新评测排名,在 WIDER FACE 的 Easy、Medium 和 Hard 三个评测子集的六项评估结果中,创新奇智(AInnovation)研发的 AInnoFace 人脸检测算法综合排名第一(六个分项排名中五项第一,一项第二),超越百度、旷视、腾讯、京东、滴滴、卡耐基梅隆大学、北京邮电大学、中国科学院大学等众多国内外知名人工智能企业和高校人工智能实验室。
图片来自WIDER FACE官网
WIDER FACE官网
http://shuoyang1213.me/WIDERFACE/WiderFace_Results.html
AInnoFace 算法是如何力压群雄的?
它以著名的一阶段检测器 RetinaNet 为起点,其中:
(a)骨干网络:前馈ResNet-152网络架构用来提取多尺度特征图。
(b)颈部网络:一个6级特征金字塔网络(FPN)用来生成更丰富的多尺度卷积特征金字塔,之后连接两个共享子网,一个子网负责分类目标框,另一个网络负责将目标框回归到真实框。
随后,他们使用focal-loss作为二分类的损失和使用IoU loss 作为框回归的损失。IoU 损失函数(IoU regression loss)进行边框回归使得检测结果的位置更加精准,使用了选择性二阶段回归和分类(Selective Refinement Network)让检测结果的召回率更高并且产生的虚检更少,融合了多种数据増广策略使得最终的检测模型更加鲁棒,借鉴了标签最大化操作(Max-out Label)让分类预测结果更加准确从而降低虚检,还利用改进的多尺度测试策略以更好地检测不同尺度的人脸。
经过上述一系列改进,AInnoFace算法对极端尺寸、模糊、遮挡等姿态下的人脸都有很好的检测效果,能有效提升复杂场景下人脸检测召回率及精准度,更好地解决了开放场景人脸检测的技术难题。
详细信息请查看论文:
《Accurate Face Detection for High Performance》
https://arxiv.org/pdf/1905.01585.pdf
以曾经有“世界上人数最多的自拍合影”照片为例,据公开消息显示,百度的算法 PyramidBox 在该图片上检测到 880 张人脸,而 AInnoFace 算法可以检测出918张人脸,在检测精度上有较大幅度的提升。
二、AInnoDetection 目标检测算法:Pascal VOC 挑战赛算法综合排名第一
目标检测是图像领域三大基本任务之一,也是图像领域非常具有挑战的算法难题。Pascal VOC 挑战赛是世界最权威的三大计算机视觉挑战赛之一,其数据集标注质量高、场景复杂、目标多样、检测难度大,是快速检验算法有效性的首选。
Pascal VOC数据集部分样本
在人们所熟知的几大公开数据集中,虽然 Pascal VOC 数据量不如 ImageNet、MSCOCO 等数据集的数据量大,但是 Pascal VOC 数据集中丰富的场景,更加考验人工智能算法的设计和创新能力,而 ImageNet、MSCOCO 数据集更侧重考查人工智能算力的建设能力。
可以说,Pascal VOC 是国内外 AI 企业展开激烈竞争的主赛场。截至目前,Pascal VOC 挑战赛吸引了全球近百支专业队伍参赛,包括 Google、Microsoft、CMU、清华大学、阿里巴巴、腾讯、搜狗、Yi+、平安科技等国内外知名图像领域的顶尖团队参与比赛。
图片源自Pascal VOC官网 ,单项第一使用黑粗体显示
Pascal VOC官网
http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=4
Pascal VOC 的数据集包括人类、动物、交通工具、室内物体等数十个类别。创新奇智视觉算法团队研发的 AInnoDetection 目标检测算法参加了 Object Detection(Competition4)子任务,在 20 类不同目标检测中超越上述公司,获得了 10 个类别的检测 MAP(准确率)第一,总分第一的成绩。
AInnoDetection模型算法使用了著名的二阶段检测算法,采用数据增强来扩充训练数据,包括填充小物体和mixup的方法。通过以上步骤,使检测模型能够对小物体检测效果更好,同时能够使模型预测效果更好。
三、AInnoSegmentation 算法:夺冠并刷新纪录实例分割任务
而在国际权威图像分割竞赛 Cityscapes 上,创新奇智的AInnoSegmentation 算法在各项指标比拼中均名列第一,综合成绩第一,并刷新实例分割任务世界纪录,超越 NVIDIA(英伟达)、Facebook、Uber、香港中文大学、商汤、搜狗、科大讯飞等几十支强劲的国际企业和科研机构。
图片来源:Cityscapes官网
Cityscapes 评测数据集在 2015 年由奔驰公司推动发布,是目前公认的机器视觉领域内最具权威性和专业性的图像分割数据集之一。Cityscapes 评测数据集共分为像素级分割和实例分割两个子任务,相较于像素级分割,实例分割的难度要更大,也是计算机视觉领域最重要、最具挑战的任务之一。
Cityscapes 实例分割任务所对应的数据集中,包含了 5000 张精细标注的图像和 20000 张粗略标注的图像,其中包含 50 个城市的不同场景、不同背景、不同街景,以及 30 类涵盖地面、建筑、交通标志、自然、天空、人和车辆等的物体标注,以关注真实场景下的环境理解著称,任务难度更高。
Mask R-CNN网络图
AInnoSegmentation 算法则以著名的 Mask R-CNN 网路架构为基础,骨干网络使用 SE-Resnet-152 网络架构,使用它来提取多尺度特征图,颈部网络采用一个 6 级特征金字塔网络(FPN),用来生成更加丰富的多尺度卷积特征。然后使用自研的特征融合模块作为特征融合器,后面连接两个共享子网,一个负责分类和框回归,一个负责图像分割。
AInnoSegementation 算法在 Cityscapes 数据集上的表现
四、不止于单一算法能力,AI落地才是王道
不止在这些算法竞赛中夺冠,更重要的是把算法应用到产业中创造价值,助力企业客户及合作伙伴提升商业效率和价值,
创新奇智自成立伊始就瞄准人工智能算法在制造、零售、金融等多个领域的商业化产品落地,形成具有商业潜力的 AI 产品和解决方案。
AInnoFace人脸检测算法已应用在创新奇智的人脸识别智能货柜、智慧园区社区等领域。AInnoDetection 目标检测算法已在创新奇智的商品检测、工业视觉缺陷检测、渠道陈列监控等产品中已经使用。AInnoSegmentation 算法广泛应用于工业视觉中,典型场景包括缺陷检测、定位、识别等,创新奇智已将该算法应用于成衣、磁性材料等质检场景中,以提高产品的质检精准度;应用于零售场景中的渠道陈列和智能货柜等商品识别场景,提高商品识别准确度的同时,帮助客户提升运营效率;应用于创新奇智正在实施的智慧铁水无人机车运输系统上,进一步提高该解决方案的成熟度和技术壁垒。
此外,创新奇智还打造人工智能数据平台、原创的深度学习支撑平台、机器学习平台和 AI 工业视觉平台 ManuVision,这些成果提升了算法在实际场景应用的精度,并高效整合了算力资源。
推荐阅读
旷视张祥雨:高效轻量级深度模型的研究和实践 | AI ProCon 2019
一份职位信息的精准推荐之旅,从AI底层架构说起
Uber提出损失变化分配方法LCA,揭秘神经网络“黑盒”
使用Python对大脑成像数据进行可视化分析
看完这篇还不会kafka,我跪榴莲!
干货 | OpenCV看这篇就够了,9段代码详解图像变换基本操作
横扫阿里、滴滴、美团后,阿里程序媛整理出这份厚厚的面经!
谷歌称已实现量子霸权;iOS 捷径功能被诉侵权;Chrome 78 Beta 发布 | 极客头条
一文读懂分片基础原理, 数据分片, 跨分片交易, 区块链分片和缩放究竟是什么鬼?
你点的每个“在看”,我都认真当成了喜欢