其他

谷歌发布新数据集,教机器辨识人类动作

2017-11-09 开拓视野的 智能观


来源:Flipboard

作者:Dave Gershgorn

智能观 编译


【智能观】日新月异的AI又给我们带来了AVA,教机器理解视频中的人类动作是计算机视觉的一个基本研究课题,但识别人类动作仍然是一个巨大的挑战。尽管有许多基准数据集(如 UCF101、ActivityNet 和 DeepMind 的 Kinetics)采用图像分类标记模式,并为数据集中的每个视频或视频剪辑分配一个标签,但对于有多人执行不同动作的复杂场景,还没有相应的数据集。这次谷歌发布的AVA诞生于“原子视觉动作”,是一个全新的数据集,为扩展视频序列中的每个人提供多个动作标签。AVA 由 YouTube 中公开视频的网址组成,注解了一组 80 种时空局部化的原子动作(如“走”、“踢(物体)”、“握手”等),产生了 5.76 万个视频片段、9.6 万个标记动作执行人以及总共 21 万个动作标签。

 


现在人工智能又多了一项新资源来理解人类。

 

近日,拥有YouTube的谷歌公开了一个新的电影剪辑数据集,旨在教机器辨识人类的动作。这份数据集被称为AVA,或者“原子视觉动作”。

 

数据集里的视频对于人类来说并不是什么特别的东西,只不过是YouTube上人们喝水或烹饪的三秒钟剪辑。但每个剪辑都绑定了一个文件,文件采用机器学习算法标记了视频画面上的人或物,他们的姿势描述,以及他们是否在与另一个人或物体交流。当算法标记出视频中的狗,就会训练AI认识狗。

 

当视频中不止一个人在做事时,每个人都会有自己的标签。通过这种方式,算法就可以学习一些必要的动作,如两个人握手之类。

 

谷歌数据集中的标签


这项技术可以帮助谷歌每天分析YouTube上的视频,也可以通过分析你看的视频内容,投放更精准的目标广告,或用于视频内容审核分级。谷歌最后的目的是帮计算机实现社会视觉智能,其研究人员在一份相关的研究论文中写道,这意味着机器可以“理解人类正在做什么,他们下一步可能做什么,以及他们正在努力达到什么目标等”。

 

AVA 的原子动作标签分布,x 轴所示标签只是词汇表的一部分


AVA 中频繁共同出现的动作对


AVA数据集有57,600个标签视频,详细描述了80个动作。像站立、说话、听和走路这样的简单动作在数据集中出现得最多,每一个都携带超过10000个标签。该团队在一份研究报告中称,使用电影片段确实会给他们的机器学习带来一些偏见,因为电影制作有“自己的行规”,有些动作也会被戏剧化。

 

“我们并不认为这些数据是完美的,”研究人员在相关论文中写道,“但这比使用各种用户生成的内容,如动物表演视频、DIY教学视频、儿童生日派对之类的活动等要好得多。”

 

在这篇论文中,研究者试图尽可能多地找到不同国家的代表人物来获取数据,但他们没有详细说明数据集可能会因种族或性别而产生偏差。

 

附数据集地址:

https://research.google.com/ava/explore.html


原文链接:https://flipboard.com/@flipboard/-google-is-teaching-its-ai-how-humans-hu/f-99cbe87130%2Fqz.com

 

—完—


想知道AI加教育领域有哪些最新研究成果?

想要AI领域更多的干货?

想了解更多专家的“智能观”?

请在对话界面点击“找找看”,去获取你想要的内容吧。

有人问:你们为什么要做智能观?为什么关注AI+教育?

 

我想,这不是一个选择。

 

当AI开始颠覆各行各业时,我们首先想到了教育。未来是我们正在为之努力的地方,教育可以影响当下,改变未来。

 

我们用心观察和记录教育在这个时代的蜕变;努力把前沿的动态、最新的进展、先进的观点带到你面前,希望与你一起思考和探索。我们相信,长出AI翅膀的教育,会创造出无限可能。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存