查看原文
其他

AI读唇术,这个技能很逆天啊!

Robot Li AI全球总部 2019-07-04


▌解决方案:AI唇语识别

▌所属行业:公安、教育

▌应用场景:破案侦查、身份识别、残障教育

▌关键技术:人脸识别、语音识别、大数据计算、深度学习

▌提供商:谷歌、搜狗、海云数据等


2018年4月,亳州一女大学生(化名小丽)在外地陷入传销陷阱,被限制人身自由。



亳州警方接到报警后,民警让小丽的同学与她视频聊天发现,女大学生趁监视她的女子不注意时,多次做出同一个口型,很像是“洛阳,救我!”


经过综合分析,民警认为女大学生很有可能陷入了传销组织,并被人控制,地点就在洛阳。


民警及时联系洛阳警方,将小丽救了出来,并抓获非法传销人员二十余人。


聪明的小丽,用唇语把关键信息传递出来,好在有经验的警察读懂了唇语。如果没有这个能读懂“唇语”的警察,怎么办呢?


没关系,我们有AI唇语识别,照样能读懂小丽的唇语求救信号!




如果有了AI唇语识别



在中国,视频监控布满了大街小巷,警察叔叔相当于多了一双眼观六路的眼睛。


但视频监控里的人说了什么,没法听清楚。眼下,一个神奇的技术——AI唇语识别——这无疑是给警察叔叔带来一双耳听八方的耳朵。


这也将为公共安防事业带来打开一个崭新的视听世界,睁大眼睛,来感受一下唇语识别的魅力!


啥?你在说啥?


你看出来她说在什么吗?让我们来看看电脑的答案。



句子:Place blue in m1 soon.

预测:Place blue in m1 soon.

(尽快在m1中放置蓝色)


虽然我等凡人是不明白她在说什么,但AI唇语识别可以。



啥是AI唇语识别



AI唇语识别——通过机器视觉识别,不用听声音,仅靠识别说话人的唇部动作,就能解读说话者所说的内容。


要理解这个AI唇语识别,需要注意这几个关键词:


运用机器视觉技术从视频中识别出说话人的人脸,提取此人连续说话时口型变化的特征



将连续变化的特征输入到唇语识别模型中,识别说话人口型对应的发音,运用大数据计算出可能性最大的自然语言语句。


图中字幕是由谷歌AI通过唇读实时同步输出,语速之快,难度之大


在唇语识别过程中,口型与发音,发音与文字之间,并不是唯一对应的关系,常常有多个可能的备选结果,需要实时计算出可能性最大的结果。


这个就好比,中国汉字有很拼音是一样的,输入拼音【zhidao】,输入法会显示“知道、直到、执导、之道、制导、之岛……”,我们需要人为选择自己需要的是哪个词。





AI唇语识别如何识别的呢?



AI唇语识别技术原理:



唇语识别技术从镜头输入到理解输出,中间最重要的关键是:视觉前段、视觉特征提取、唇动识别。



➀ 视觉前段——包括人脸检测与唇的检测和定位,先用人脸检测演算法得到人脸然后有针对性的定位唇动;


或者利用最佳闽值二值化演算法,以唇的边缘是平滑的,和左右形状对称为条件,作为二值化闽值选定的约束条件,得到平滑而对称的唇图像。


➁ 视觉特征提取——是对获取的唇图像进行处理得到对应特征,特征提取方法主要分为基于图元的方法基于模型的方法两大类;


搜狗所用的基于模型的方法就是,对唇的轮廓建立一个模型,将特征资讯包含在这个模型之中,并对模型中特征资讯的变化用一个小的参数来描述。


这类方法的优点是重要特征被表示成二维参数,不会因光照、缩放、旋转、平移而改变,缺点是忽略了细微的三维资讯,可能会对后面的识别过程造成影响。


➂ 唇动识别——目前采用的技术大多是隐玛律可夫模型(Hidden Markov Model),该模型认为唇动信号在极短时间内是线性的,可以用线性参数模型来表示,然后将许多线性模型在时间上串接起来,组成一条玛律可夫链。


玛律可夫链可以用来描述统计特征资讯的变化,并且这种变化过程与人的唇动过程是相吻合的,所以隐玛律可夫模型能够识别唇动并与相应语句匹配转化成文字。


如何培养AI唇语识别专家



这样的稀缺人才,很多行业都想要一个。如何培养一个AI唇语识别专家,最好的“语料”就是海量的优质视频数据。


谷歌的人工智能公司DeepMind使用总长超过5000小时(2010 年 1 月至 2015 年 12 月间的电视节目素材,如BBC 各类节目,总语句超过118000的新闻视频)完成了对人工智能的训练;



然后使用 2016 年 3 月 至9 月间播出的节目进行测试——结果发现,给予相同的视频素材,专业唇语识别专家能达到12.4%的正确率,而AI系统识别正确率则是46.8%,高出了大概3倍。



谷歌 DeepMind 音文唇语识别系统便已经可以支持 17500 个词



海云数据,截至目前他们训练新闻类节目时长是1万小时。为什么是新闻类节目?当然是因为播音员的唇语最标准。



目前,海云数据在英文方面可以达到80%的准确度,中文方面是71%


海云数据的AI唇语识别测试


搜狗的通用识别准确率在60%以上,而在车载、智慧家居等垂直场景下,准确率高达90%


从视频中可以看出将面部放入椭圆形区域内,不发声的说出一段话,几乎说完的瞬间,识别的文字就出现在屏幕上,无论是口语、诗词、歌词还是绕口令,都能很好的识别。


搜狗的AI唇语识别测试



AI唇语识别的应用前景



AI唇语识别还没有到商用的地步(一般识别率高于95%即可达到商用标准),但随着技术的不断进步和识别率的提升,唇语识别市场或将迎来爆发,其对应的安防、公共安全、身份识别、残障教育等行业也将发生巨大的变化。




可以预见,在未来,当古老的读唇术被人工智能发挥到极致,希望世界会变得更好。




更多阅读AI公安丨人脸识别助力公安8小时抓捕人贩子AI公安丨不看脸,看走路。公安启用“AI步态识别”,33小时破命案
AI情感监测,把求职女硕士挡在银行门外!根据笑容,AI能识别性别,花木兰代父从军行不通了鬼能穿墙,人脸识别也可以!AI交通丨中国机场人脸识别项目,迎来井喷!AI公安丨重磅!深圳交警试点“刷脸”执法!AI公共事务丨再来公厕偷纸,小心AI削你!AI公安丨张学友万人演唱会,AI意外抓获网逃嫌犯




    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存