其他

大数据文摘作品,转载要求见文末 

主讲人 | Joseph Redmon

翻轴 | 海抒,Lisa,弋心

校对 | 陈啸明 后期 | DJ


You only live once?


不,You only look once!


一起来了解一个开源的算法,它让计算机只用看一次图片就能“看懂”图上有小猫小狗还是停车指示牌


本视频时长7分钟,暂时无法观看的小伙伴可以下拉正文,查看我们整理的视频内容喔。


👇戳视频观看

https://v.qq.com/txp/iframe/player.html?vid=u05421lpsii&width=500&height=375&auto=0

十年以前,计算机视觉研究者们觉得让计算机区别一只猫和一条狗,是一件几乎不可能的事儿。即使是在人工智能技术突飞猛进的情况下,现在我们可以以超过99%的精确度完成这件事,这叫做图像分类,给定一个图像,在图像上加一个标签,计算机就知道成千种分类


我是华盛顿大学的一名研究生,我正在一个叫做Darknet的项目上,她是一个神经网络框架,用来训练和测试计算机视觉模型。我们来看一下Darknet怎么分析。我们这张图片,当我们在这张图上运行分类器,我们得到的不仅是猫还是狗的预测,我们实际得到的是特定种类的预测,这就是我们现在可以达到的精度。


运行结果展示


而且它是正确的,我的狗的确是一条爱斯基摩,我们在图像分类技术上取得了很大的进步,但是当我们在这种图像上运行分类器,会发生什么呢?嗯……我们看到分类器得到了一个和刚才很相似的结果。


的确,图上有一只爱斯基摩,但是仅通过这个标签,我们还是无法了解这张图讲述了什么。我们需要一个更强大的技术,我正在解决一个叫做物体检测的问题。试图从一张图上找到所有的物体,框起来,标注上这些是什么物体,这就是我们在一张图上运行检测仪得到的结果。


现在,有了这样的结果,我们利用这个计算机视觉算法做很多事情,我们看到了它指出了有一只猫,一条狗,他们大致的方位,他们的大小,甚至可能还有一些额外信息,比如有本书在背景里,如果你希望在计算机视觉上构建一个系统,比如自驾车或是一个机器人系统,你就需要这样的信息了,这样你就可以和现实世界互动了。


识别物体和背景信息


现在,当我开始进行物体检测时,处理单张图像需要20秒,为了理解为什么速度在这个领域中是如此的重要。这里有一个例子:一个物体探测仪,用两秒钟来处理一张图像,那么这就比处理每张图像用20秒的探测仪快了10倍,并且你可以发现它每对图片进行一次预测的时间,都够用来改变世界了。


这对于一个应用来说可不是什么好事,如果我们再加速10倍,这就是一个每秒处理五个检测框(图片)的检测仪,这就要好多了。


然而,如果我们移动太快(效果就不那么好),我可不想让这样一个系统来开我的车。这是我们检测系统在我电脑上的实时运行状况,当我绕着检测框移动时,它能很流畅的追踪到我,并且它对于尺寸的各种改变也很兼容,摆造型——向前,向后,效果很棒,如果我们想利用计算机视觉来构建一个系统,这就是我们真正想要的结果。


准确追踪运动的物体


所以仅通过短短几年,我们经历了从每张图像20秒,到每张图像20毫秒,快了1000倍,我们是怎么做到的。以前,物体检测系统,会拿这样一张图像,把它分割成很多小区域,然后在每个区域上进行分类。然后总得分最高的那个分类器,就被认为是这个图像的检测结果。


但这需要在一个图像上跑几千次分类,几千次的神经网络估测来产成一个检测结果,相反,现在我们训练一个单个网络来为我们做所有的检测。它可以同步生成所有的边界框和分类概率,有了我们这个系统,不需要一张图像看一千次,来产生检测结果,你只需要看一次,这就是我们为什么把它叫"YOLO"物体探测方法。


有了这个速度,我们就可以不只局限于图像,还可以实时处理视频。现在,我们不仅仅可以看得到猫和狗,还可以看到他们的移动和互动。这是我们在微软COCO数据集中,用80种不同类别,训练出的检测器,其中包含各种常见物品,诸如汤匙,叉子,碗,等等,还有多种多样奇异的东西,动物,汽车,斑马,长颈鹿,等等。


准确实时识别展示柜上的物体


现在咱们来做件有趣的事,我们要到观众中去,看看我们能检测出什么。谁想要毛绒玩具?这还有些泰迪熊,我们把检测阈值稍微调低点儿,这样我们就能在观众席中多检测出一些东西,看看我们能不能抓住这些"停车"标志。


我们发现了一些背包,让我们放大点试试,效果很不错,所有处理过程都是在笔记本电脑上,实时进行的。有一点很重要,要记住,这是一个通用的目标检测系统,那么,我们可以训练它用于任何图像领域,一套用于在自动驾驶汽车上发现"停车"标识或者行人和自行车的代码,也可以用于在活组织检查中,定位癌细胞,全球各地已有许多研究人员利用这项技术,来促进诸如医学领域和机器人技术的发展。


今早我看到新闻,他们在内罗毕国家公园给动物做统计,检测系统中就用到了YOLO法,这是因为Darknet是开源的,属于共享软件,任何人都能免费使用,不过我们希望检测技术使用起来更方便,实用性更强。


手机上也能实现目标识别


于是,通过结合模型优化法,网络二元法和渐近法,我们竟然实现了在手机上运行目标检测系统!我特别激动,因为现在我们有了有力的方法,来解决这一低层的计算机视觉问题,所有人都可以拥有它,并用它做点什么。


那么,剩下的全取决于在座的各位了,当然,还有世界各地的,我非常期待看到大家用这个技术做出的成就!


感谢各位!(完)


目前,该项目已经有相关的网址啦!没过瘾的童鞋可以通过以下方式了解该项目的更多信息。have a nice time~

  • 视频地址: https://www.ted.com/talks/joseph_redmon_how_a_computer_learns_to_recognize_objects_instantly

  • 项目地址:https://pjreddie.com/darknet/yolo/


志愿者介绍

回复“志愿者”加入我们


往期精彩文章

点击图片阅读

暑期追剧学AI (5) | 降维打击!发射二向箔的正确姿势


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存