TED演讲 | 计算机是怎样快速看懂图片的：比R-CNN快1000倍的YOLO算法 | 自由微信

其他

信息史学

2017-08-29 分享

分享一篇文章。

大数据文摘

TED演讲 | 计算机是怎样快速看懂图片的：比R-CNN快1000倍的YOLO算法原创

阅读全文

大数据文摘作品，转载要求见文末

主讲人 | Joseph Redmon

翻轴 | 海抒，Lisa，弋心

校对 | 陈啸明后期 | DJ

You only live once?

不，You only look once！

一起来了解一个开源的算法，它让计算机只用看一次图片就能“看懂”图上有小猫小狗还是停车指示牌。

本视频时长7分钟，暂时无法观看的小伙伴可以下拉正文，查看我们整理的视频内容喔。

👇戳视频观看

https://v.qq.com/txp/iframe/player.html?vid=u05421lpsii&width=500&height=375&auto=0

十年以前，计算机视觉研究者们觉得让计算机区别一只猫和一条狗，是一件几乎不可能的事儿。即使是在人工智能技术突飞猛进的情况下，现在我们可以以超过99%的精确度完成这件事，这叫做图像分类，给定一个图像，在图像上加一个标签，计算机就知道成千种分类。

我是华盛顿大学的一名研究生，我正在一个叫做Darknet的项目上，她是一个神经网络框架，用来训练和测试计算机视觉模型。我们来看一下Darknet怎么分析。我们这张图片，当我们在这张图上运行分类器，我们得到的不仅是猫还是狗的预测，我们实际得到的是特定种类的预测，这就是我们现在可以达到的精度。

运行结果展示

而且它是正确的，我的狗的确是一条爱斯基摩，我们在图像分类技术上取得了很大的进步，但是当我们在这种图像上运行分类器，会发生什么呢？嗯……我们看到分类器得到了一个和刚才很相似的结果。

的确，图上有一只爱斯基摩，但是仅通过这个标签，我们还是无法了解这张图讲述了什么。我们需要一个更强大的技术，我正在解决一个叫做物体检测的问题。试图从一张图上找到所有的物体，框起来，标注上这些是什么物体，这就是我们在一张图上运行检测仪得到的结果。

现在，有了这样的结果，我们利用这个计算机视觉算法做很多事情，我们看到了它指出了有一只猫，一条狗，他们大致的方位，他们的大小，甚至可能还有一些额外信息，比如有本书在背景里，如果你希望在计算机视觉上构建一个系统，比如自驾车或是一个机器人系统，你就需要这样的信息了，这样你就可以和现实世界互动了。

识别物体和背景信息

现在，当我开始进行物体检测时，处理单张图像需要20秒，为了理解为什么速度在这个领域中是如此的重要。这里有一个例子：一个物体探测仪，用两秒钟来处理一张图像，那么这就比处理每张图像用20秒的探测仪快了10倍，并且你可以发现它每对图片进行一次预测的时间，都够用来改变世界了。

这对于一个应用来说可不是什么好事，如果我们再加速10倍，这就是一个每秒处理五个检测框(图片)的检测仪，这就要好多了。

然而，如果我们移动太快(效果就不那么好)，我可不想让这样一个系统来开我的车。这是我们检测系统在我电脑上的实时运行状况，当我绕着检测框移动时，它能很流畅的追踪到我，并且它对于尺寸的各种改变也很兼容，摆造型——向前，向后，效果很棒，如果我们想利用计算机视觉来构建一个系统，这就是我们真正想要的结果。

准确追踪运动的物体

所以仅通过短短几年，我们经历了从每张图像20秒，到每张图像20毫秒，快了1000倍，我们是怎么做到的。以前，物体检测系统，会拿这样一张图像，把它分割成很多小区域，然后在每个区域上进行分类。然后总得分最高的那个分类器，就被认为是这个图像的检测结果。

但这需要在一个图像上跑几千次分类，几千次的神经网络估测来产成一个检测结果，相反，现在我们训练一个单个网络来为我们做所有的检测。它可以同步生成所有的边界框和分类概率，有了我们这个系统，不需要一张图像看一千次，来产生检测结果，你只需要看一次，这就是我们为什么把它叫"YOLO"物体探测方法。

有了这个速度，我们就可以不只局限于图像，还可以实时处理视频。现在，我们不仅仅可以看得到猫和狗，还可以看到他们的移动和互动。这是我们在微软COCO数据集中，用80种不同类别，训练出的检测器，其中包含各种常见物品，诸如汤匙，叉子，碗，等等，还有多种多样奇异的东西，动物，汽车，斑马，长颈鹿，等等。

准确实时识别展示柜上的物体

现在咱们来做件有趣的事，我们要到观众中去，看看我们能检测出什么。谁想要毛绒玩具?这还有些泰迪熊，我们把检测阈值稍微调低点儿，这样我们就能在观众席中多检测出一些东西，看看我们能不能抓住这些"停车"标志。

我们发现了一些背包，让我们放大点试试，效果很不错，所有处理过程都是在笔记本电脑上，实时进行的。有一点很重要，要记住，这是一个通用的目标检测系统，那么，我们可以训练它用于任何图像领域，一套用于在自动驾驶汽车上发现"停车"标识或者行人和自行车的代码，也可以用于在活组织检查中，定位癌细胞，全球各地已有许多研究人员利用这项技术，来促进诸如医学领域和机器人技术的发展。

今早我看到新闻，他们在内罗毕国家公园给动物做统计，检测系统中就用到了YOLO法，这是因为Darknet是开源的，属于共享软件，任何人都能免费使用，不过我们希望检测技术使用起来更方便，实用性更强。

手机上也能实现目标识别

于是，通过结合模型优化法，网络二元法和渐近法，我们竟然实现了在手机上运行目标检测系统！我特别激动，因为现在我们有了有力的方法，来解决这一低层的计算机视觉问题，所有人都可以拥有它，并用它做点什么。

那么，剩下的全取决于在座的各位了，当然，还有世界各地的，我非常期待看到大家用这个技术做出的成就！

感谢各位！（完）

目前，该项目已经有相关的网址啦！没过瘾的童鞋可以通过以下方式了解该项目的更多信息。have a nice time~

视频地址： https://www.ted.com/talks/joseph_redmon_how_a_computer_learns_to_recognize_objects_instantly
项目地址：https://pjreddie.com/darknet/yolo/

志愿者介绍

回复“志愿者”加入我们

往期精彩文章

点击图片阅读

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

为什么京东员工强烈推荐京东plus会员不要直接在平台上买东西？

别太贪婪，这些技能让你一辈子满足

大哥给我发“N子照片”！知名女主播自爆H弹！被CG拿下大力反击！

暑期追剧学AI (5) | 降维打击！发射二向箔的正确姿势

您可能也对以下帖子感兴趣