谷歌发布新数据集,教机器辨识人类动作
来源:Flipboard
作者:Dave Gershgorn
智能观 编译
【智能观】日新月异的AI又给我们带来了AVA,教机器理解视频中的人类动作是计算机视觉的一个基本研究课题,但识别人类动作仍然是一个巨大的挑战。尽管有许多基准数据集(如 UCF101、ActivityNet 和 DeepMind 的 Kinetics)采用图像分类标记模式,并为数据集中的每个视频或视频剪辑分配一个标签,但对于有多人执行不同动作的复杂场景,还没有相应的数据集。这次谷歌发布的AVA诞生于“原子视觉动作”,是一个全新的数据集,为扩展视频序列中的每个人提供多个动作标签。AVA 由 YouTube 中公开视频的网址组成,注解了一组 80 种时空局部化的原子动作(如“走”、“踢(物体)”、“握手”等),产生了 5.76 万个视频片段、9.6 万个标记动作执行人以及总共 21 万个动作标签。
现在人工智能又多了一项新资源来理解人类。
近日,拥有YouTube的谷歌公开了一个新的电影剪辑数据集,旨在教机器辨识人类的动作。这份数据集被称为AVA,或者“原子视觉动作”。
数据集里的视频对于人类来说并不是什么特别的东西,只不过是YouTube上人们喝水或烹饪的三秒钟剪辑。但每个剪辑都绑定了一个文件,文件采用机器学习算法标记了视频画面上的人或物,他们的姿势描述,以及他们是否在与另一个人或物体交流。当算法标记出视频中的狗,就会训练AI认识狗。
当视频中不止一个人在做事时,每个人都会有自己的标签。通过这种方式,算法就可以学习一些必要的动作,如两个人握手之类。
谷歌数据集中的标签
这项技术可以帮助谷歌每天分析YouTube上的视频,也可以通过分析你看的视频内容,投放更精准的目标广告,或用于视频内容审核分级。谷歌最后的目的是帮计算机实现社会视觉智能,其研究人员在一份相关的研究论文中写道,这意味着机器可以“理解人类正在做什么,他们下一步可能做什么,以及他们正在努力达到什么目标等”。
AVA 的原子动作标签分布,x 轴所示标签只是词汇表的一部分
AVA 中频繁共同出现的动作对
AVA数据集有57,600个标签视频,详细描述了80个动作。像站立、说话、听和走路这样的简单动作在数据集中出现得最多,每一个都携带超过10000个标签。该团队在一份研究报告中称,使用电影片段确实会给他们的机器学习带来一些偏见,因为电影制作有“自己的行规”,有些动作也会被戏剧化。
“我们并不认为这些数据是完美的,”研究人员在相关论文中写道,“但这比使用各种用户生成的内容,如动物表演视频、DIY教学视频、儿童生日派对之类的活动等要好得多。”
在这篇论文中,研究者试图尽可能多地找到不同国家的代表人物来获取数据,但他们没有详细说明数据集可能会因种族或性别而产生偏差。
附数据集地址:
https://research.google.com/ava/explore.html
原文链接:https://flipboard.com/@flipboard/-google-is-teaching-its-ai-how-humans-hu/f-99cbe87130%2Fqz.com
—完—
想知道AI加教育领域有哪些最新研究成果?
想要AI领域更多的干货?
想了解更多专家的“智能观”?
请在对话界面点击“找找看”,去获取你想要的内容吧。
有人问:你们为什么要做智能观?为什么关注AI+教育?
我想,这不是一个选择。
当AI开始颠覆各行各业时,我们首先想到了教育。未来是我们正在为之努力的地方,教育可以影响当下,改变未来。
我们用心观察和记录教育在这个时代的蜕变;努力把前沿的动态、最新的进展、先进的观点带到你面前,希望与你一起思考和探索。我们相信,长出AI翅膀的教育,会创造出无限可能。