视频人脸模糊技术：新闻编辑的福音

原创 2017-01-23 谢文轩 微软研究院AI头条

新闻无处不在。从电视里的《新闻联播》、《新闻30分》，到手机中的《今日头条》、《腾讯新闻》，随着互联网的不断发展，新闻报道的数量，以及报道中的视频数量，都在不断增加。

这对读者来说也许是好事，意味着有更多、更丰富的内容可以浏览，对编辑来说或许意味着某种灾难，因为他们要干的活更多了。请看下图。

市井中的小偷也有非常高的隐私意识。即便是被抓住接受采访，他还是会强调“你得给我打上马赛克”。新闻编辑在这里的任务，就是将采访得到的源视频中的人脸部分进行打码。这是一项纯手工的工作，编辑需要对视频每一帧中的人脸都进行框选、打码。诸位可以想象一下，如果每天都有无数需要打码的新闻视频交给编辑进行人工处理，该是多么繁重的任务。

为此，微软研究院提出了一套基于人工智能算法的视频人脸模糊解决方案。该算法能够对视频进行自动处理，将其中出现的不同人物返回给用户。用户只需要轻点鼠标，选择想要打码的人物，相应人物在视频中的所有露脸区域都将被打上马赛克。大体的算法示意，请看下图。

上面的示意图也许太过简练了。关于这套人脸模糊系统具体是如何工作的，下图是更为详细的解读。

本质上，我们的目标是找出所有人脸的出现位置，并把同一个人的所有人脸连接起来。为此，我们需要三个算法——人脸的检测、跟踪、识别。

检测。首先，我们需要定位人脸可能出现的位置。为了保证人脸尽量不被漏掉，我们使用了一个基于深度网络的、具有高召回率的人脸检测器。这个检测器对视频的每一帧都进行检测，记录每个人脸对应的矩形框位置。对于人脸检测的更详细信息，请参见文末的附录。

跟踪。所谓人脸跟踪，简言之就是在某一帧中给出了一个人脸框，在其前几帧和后几帧都找到与之最相似的框。人脸跟踪在系统里的作用主要有二，一是连接相邻帧的检测框，因为人脸检测只负责每一帧的人脸定位，不负责帧间的连接；二是将当前帧的人脸检测框延续到前后几帧，这样就能定位到那些检测不到的侧脸了。

识别。经过了人脸检测和跟踪，我们已经能够处理单个镜头内的大多数问题。然而，如果视频中存在镜头切换，或者人物的遮挡，我们就需要人脸识别技术。所谓人脸识别，就是计算两张给定人脸的相似度，如果高于某个相似度，我们就认为这两张脸是同一人。我们训练了一个基于深度网络的人脸识别模型，对于不同镜头里的两张人脸，根据相似度对它们进行连接。最后，我们的系统将整个视频中不同人物的人脸都各自连接起来，提供给用户进行挑选。对于人脸识别的更详细信息，请参见文末的附录。

时间复杂度方面，我们的系统在Azure的CPU服务器上能够实时处理720p的视频，并且能够以2倍时长处理1080p的高清视频。

微软研究院与微软Azure云平台已经就视频人脸模糊技术建立了联系，该系统已经搭载于云平台上作为一项云服务。同时，该项目也受到了多家智能摄像机公司的广泛关注，正在进行下一步的合作。

附录

微软认知服务包含了微软研究院的多种人工智能技术，例如Video API，Face API，Emotion API等等，大部分的API都能够免费在线试用。上文中提到的人脸检测和识别技术属于Face API，而人脸跟踪技术则包含于Video API中。

作者简介

谢文轩，微软亚洲研究院副研究员，网络媒体组成员，曾担任ECCV、CVPR等顶级会议的评审委员。他的研究兴趣包括计算机视觉和机器学习。

你也许还想看：

感谢你关注“微软研究院AI头条”，我们期待你的留言和投稿，共建交流平台。来稿请寄：msraai@microsoft.com。

微软小冰进驻微软研究院微信啦！快去主页和她聊聊天吧。

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…