谷歌发布新数据集，教机器辨识人类动作

原创 2017-11-09 开拓视野的 智能观

来源：Flipboard

作者：Dave Gershgorn

智能观编译

【智能观】日新月异的AI又给我们带来了AVA，教机器理解视频中的人类动作是计算机视觉的一个基本研究课题，但识别人类动作仍然是一个巨大的挑战。尽管有许多基准数据集（如 UCF101、ActivityNet 和 DeepMind 的 Kinetics）采用图像分类标记模式，并为数据集中的每个视频或视频剪辑分配一个标签，但对于有多人执行不同动作的复杂场景，还没有相应的数据集。这次谷歌发布的AVA诞生于“原子视觉动作”，是一个全新的数据集，为扩展视频序列中的每个人提供多个动作标签。AVA 由 YouTube 中公开视频的网址组成，注解了一组 80 种时空局部化的原子动作（如“走”、“踢（物体）”、“握手”等），产生了 5.76 万个视频片段、9.6 万个标记动作执行人以及总共 21 万个动作标签。

现在人工智能又多了一项新资源来理解人类。

近日，拥有YouTube的谷歌公开了一个新的电影剪辑数据集，旨在教机器辨识人类的动作。这份数据集被称为AVA，或者“原子视觉动作”。

数据集里的视频对于人类来说并不是什么特别的东西，只不过是YouTube上人们喝水或烹饪的三秒钟剪辑。但每个剪辑都绑定了一个文件，文件采用机器学习算法标记了视频画面上的人或物，他们的姿势描述，以及他们是否在与另一个人或物体交流。当算法标记出视频中的狗，就会训练AI认识狗。

当视频中不止一个人在做事时，每个人都会有自己的标签。通过这种方式，算法就可以学习一些必要的动作，如两个人握手之类。

谷歌数据集中的标签

这项技术可以帮助谷歌每天分析YouTube上的视频，也可以通过分析你看的视频内容，投放更精准的目标广告，或用于视频内容审核分级。谷歌最后的目的是帮计算机实现社会视觉智能，其研究人员在一份相关的研究论文中写道，这意味着机器可以“理解人类正在做什么，他们下一步可能做什么，以及他们正在努力达到什么目标等”。

AVA 的原子动作标签分布，x 轴所示标签只是词汇表的一部分

AVA 中频繁共同出现的动作对

AVA数据集有57,600个标签视频，详细描述了80个动作。像站立、说话、听和走路这样的简单动作在数据集中出现得最多，每一个都携带超过10000个标签。该团队在一份研究报告中称，使用电影片段确实会给他们的机器学习带来一些偏见，因为电影制作有“自己的行规”，有些动作也会被戏剧化。

“我们并不认为这些数据是完美的，”研究人员在相关论文中写道，“但这比使用各种用户生成的内容，如动物表演视频、DIY教学视频、儿童生日派对之类的活动等要好得多。”

在这篇论文中，研究者试图尽可能多地找到不同国家的代表人物来获取数据，但他们没有详细说明数据集可能会因种族或性别而产生偏差。

附数据集地址：

https://research.google.com/ava/explore.html

原文链接：https://flipboard.com/@flipboard/-google-is-teaching-its-ai-how-humans-hu/f-99cbe87130%2Fqz.com

—完—

想知道AI加教育领域有哪些最新研究成果？

想要AI领域更多的干货？

想了解更多专家的“智能观”？

请在对话界面点击“找找看”，去获取你想要的内容吧。

有人问：你们为什么要做智能观？为什么关注AI+教育？

我想，这不是一个选择。

当AI开始颠覆各行各业时，我们首先想到了教育。未来是我们正在为之努力的地方，教育可以影响当下，改变未来。

我们用心观察和记录教育在这个时代的蜕变；努力把前沿的动态、最新的进展、先进的观点带到你面前，希望与你一起思考和探索。我们相信，长出AI翅膀的教育，会创造出无限可能。

血压不降、麻药不睡？上海三甲主任质疑集采药质量引热议

全球消费遇冷！法国原瓶进口AOP红酒，只卖几十块！赠电动开瓶器！

年底甩货，超强清仓！华熙生物胶原贵妇精华，99元抢3盒！

清仓捡漏！品质控福利，100支纯棉四件套3折抢！丝绸般质感，享受“五星级睡眠”。

49 元买一赠一！贵妇眼霜同款成分保湿，淡化黑眼圈、眼纹.....