为了拯救脸盲,这个表情包网站在 GitHub 上开源了一款明星识别器!
公众号关注 “GitHubDaily”
设为 “星标”,每天带你逛 GitHub!
转自量子位,作者郭一璞
小鲜肉太多,让人分不清,需要 AI 替我识别,这又是谁家的爱豆。
现在,有一家公司来拯救脸盲了,不是你熟悉的硅谷 / 后厂村大公司,而是一家动图表情包网站:GIPHY。
GIPHY 开源了一个表情包识别器,可以分清楚超过 2300 个名人,而且它识别的还是动图,准确率超过 98%。
这效果,可以的
良心的是,GIPHY 不仅把这个工具开源了,而且还直接用在了自己的网站上,不是 Demo,已经是成品。
那我们来测验一下这个功能好不好用~
第一张,泰勒・斯威夫特,传上去试试效果
认出来了,匹配度 84.92%。
换个人,安妮・海瑟薇~
这次认还是认出来了,就是 AI 心里不太有谱,它的把握不到 6 成,甚至还觉得可能是另一个妹子。
我们加大难度,看艾玛・沃森这张魔性的动图能不能认出来。
△ Emma 觉得不行
笑成这样,估计识别起来有点难了吧?
还真是,AI 虽然认出来这是 Emma,但是,它觉得还有 4 个妹子笑得跟 Emma 一样魔性
另外,这个 AI 还对一位明星表现出了迷之钟爱:
赫本的匹配度,高达 100%
这让人怀疑 AI 的心理年龄……
模型原理
模(mei)型(zi)测评就先到这里了,我们来看看这个模型是怎么训练出来的。
摆在 GIPHY 团队里的第一个问题,就是识别谁,以及用什么数据集。
作为一个表情包网站,秉持着自己动手丰衣足食的精神,先把自己家的热搜 TOP 50000 盘点了一下,找到了里面的所有人名,接着又用同样的方法去 Facebook、Twitter 等网站搜了一遍,凑齐了一个 2300 多名人的人脸数据库。
识别的过程则包括两部分,第一部分是人脸检测,使用 MTCNN(arxiv: 1604.02878)预训练模型来找动图中所有帧里的人脸;第二部分是人脸识别,用前面的那个 DIY 的数据集在基于 Resnet-50 的深度卷积神经网络上训练,以识别 MTCNN 模型发现的每一张人脸。
最后,还需要对人脸进行聚类,给出预测结果。
模型训练完成后,在 Labeled Faces in the Wild 数据集上的准确度达到了 96.8%。之后 GIPHY 还做了一个众包验证集,在这个验证集上的准确度达到了 98%,覆盖度达到 75%。
最后,这个模型已经在 GitHub 上开源了,如果想自己用的话,需要 Python 3.6 及以上的版本,用 Linux 的话则需要安装好 libsm,libxext,libxrender。
进入下面传送门体验一下吧~
传送门
在线使用
https://celebrity-detection.giphy.com/
开源地址
https://github.com/Giphy/celeb-detection-oss