AI寻亲:将十几万数据缩小至三位数,识别不被年龄改变的细节
编者按:
科技改变生活,也改变父母寻子的路程。
2014年上映的电影——《亲爱的》,把失子家庭之痛呈现在公众面前。从失子那一刻起,他们踏上漫漫寻子路,从繁华都市,到偏僻乡村,一山一水,一草一木,都留下他们寻子的身影,但多数都无功而返。
跨年龄人脸识别技术,正在改变这种状况。近些年,从公安部、民政部到腾讯、百度、今日头条,政府和企业在合力完成一项任务:借助跨年龄人脸识别技术,让被拐和走失儿童回家。
AI寻亲,一个源代码,便是失子家庭的一个希望。没有一项技术应用,会比让失散的亲人团聚更圆满。
如果孩子被拐10年时间,案件线索中断,仅凭一张被拐时两三岁的照片,如何找到他? 这是发生在2009年前后的10起拐卖儿童案,2014年嫌疑人被四川警方抓获时,由于买卖儿童的中间人没找到,10名儿童一直下落不明。 桂宏正的孩子也是被拐的一员。10年来,他们尝试寻子的方法,都是徒劳。孩子被拐前唯一的一张照片,印在寻人启事上贴满城市的电线杆;群发在论坛和贴吧上;印制在寻人扑克牌上。都没有结果。 警方也在寻找,曾带着嫌疑人前往汕头指认现场,联系沈阳著名刑事相貌专家模拟孩子10岁左右的画像,甚至前往汕头筛查2009年左右上户口的男孩,同样无果。 直到2017年底,公安部刑侦局副局长陈士渠在企业调研。在得知人工智能和跨年龄人脸识别技术后,提出在四川这起积案中初次尝试。 2019年,借助跨年龄人脸识别技术,这10名被拐男孩成功比中7人。随后,深圳警方同样依托该技术,找回5名被拐儿童,其中时间最久的,已经被拐19年。 公安部刑事侦查局打拐办主任陈建锋认为,跨年龄人脸识别技术将警方寻人的范围缩小,以四川的拐卖儿童案为例,AI技术将原本十几万的数据范围缩小到三位数以内,大大缩小了警方的侦查和落地工作。 目前,这项技术尚在起步阶段。陈建锋认为,下一步会考虑向全国范围推广。同时,AI技术只是寻亲的辅助方法,最终的认定,还是需要进行DNA比对。建议寻亲家属就近找到各地公安机关将NDA录入信息库中,“技术是辅助,现实中,寻亲只是一滴血的距离。”
全文6480字 阅读约需12分钟
▲2018年11月,四川专案组民警从从广东省茂名市、阳江市,辗转到广州,寻找被拐儿童。受访者供图
10名儿童被拐下落不明
过去的几年里,四川打拐办的民警们,一直在和一起拐卖儿童案“较劲”,民警心系的,是案件中已经被拐卖10年的10名儿童。
2014年,警方抓获了一名拐卖儿童嫌疑人王浩文,发现同年发生在四川遂宁、巴中、南充的三起案件,均是王浩文以给孩子买东西为由,将三名男孩拐走,并通过中间人以10万元左右的价格,卖往广东汕头。
三名被拐男孩很快被解救,王浩文等5名嫌疑人因拐卖儿童罪获刑,其中王浩文是主犯,获刑15年。
专案组在侦查中还发现,在2008年、2009年、2010年四川其他城市发生的10起拐卖儿童案中,嫌疑人作案手法、相貌特征均和王浩文相似,在审讯过程中,王浩文也承认这10起积案均是他所为,但他坚称带走孩子的一名中间人,始终没能找到。
线索就此中断。
一个比较明确的方向是,这10名被拐男孩,去向应该都是在广东汕头。四川省公安厅打拐处处长蒋晓玲回忆,王浩文每卖掉一个孩子,喜欢在当地立即将钱存进账户,而在汕头,王浩文有多笔进账。
根据公开资料,2014年末,汕头总人口(户籍)是546.57万人。蒋晓玲明白,想要找到这10名被拐男孩,如同大海捞针。
所有可以想到的办法,专案组民警都有尝试。
2014年底,民警将王浩文从看守所提出来,押到广东去指认他和中间人接头的地点。到了目的地,他却只是说找不到了,“路都变了,认不出。”在语言不通的汕头,这些四川的民警试过挨家挨户走访,没有结果。
2015年,专案组联系了沈阳著名刑事相貌专家、中国刑警学院的赵成文教授画像,根据孩子们被拐时3岁左右的照片,模拟出他们10岁左右的画像。
根据这些画像,民警前往汕头,花了10天时间,从当地十几万适龄男孩的照片中一条一条比对,用肉眼看是否相像,分析家庭中是否有怀疑的因素,比如男孩和父母年龄差别多大,有几个姐姐,和姐姐年龄差别多大,是否同一年有两个孩子?
通过这种“笨”方法,民警从十几万的数据里,挑出300多张照片带回四川,组织家长和幼儿园老师进行辨认。青少年时期正是相貌变化最大的时候,蒋晓玲说,家长辨认时,时常会觉得这都是自己的孩子,看着看着,夫妻之间有时又会为了当初丢孩子的事,陷入争吵。
被拐男孩小杰(化名)的父亲桂宏正在接受媒体采访中,提及当时的辨认结果时,总认为真的找到了孩子,因为“太像了,感觉有80%的把握。”辨认最后,民警从这300多张照片中提取了176张“特别像的”进行DNA比对,可最终,一个也没比中。
蒋晓玲认为,仅凭肉眼去观察,是很不科学的方法,“可这也是没有办法的办法。”
专案组没有放弃,2016年,他们前往汕头筛查2009年左右上户口的男孩,可筛查出的疑似对象数量太多,无法一一调查核实,这项工作最终也只能停摆。2017年5月,他们又找到企业发布定向寻亲信息,印发了1万份寻亲悬赏公告,结果只有十几个电话打来核实情况。
如何继续寻找这10名被拐男孩,局面陷入了困境。
▲2018年11月,四川专案组民警从从广东省茂名市、阳江市,辗转到广州,寻找被拐儿童,从广州到深圳的路上。受访者供图
依托AI技术找回7名被拐儿童
2017年,正是人工智能(AI)快速发展的时期,人脸识别技术,已经运用到警方的办案领域。企业已经可以运用人脸识别技术,通过一张照片,和数据库中N个人脸进行比对,找出最相似的一张脸或多张脸。
同年底,公安部刑侦局副局长陈士渠到企业调研,在得知人工智能和跨年龄人脸识别技术后,陈士渠很感兴趣,他想起了四川的这起拐卖案,他曾多次前往四川督办此案,希望找到突破口。事后,他让企业的技术团队和四川警方对接。
工作的第一步,是四川警方从家长手中收集孩子被拐时的照片,所幸的是,这10个孩子都保留被拐前的生活照,照片老旧发黄,有的家长们用油纸一层层的包裹,其中年龄最小的,只保留有两三个月大的照片,还有的因为父母长期打工搬家,照片已经丢失,只留有报案时留在警方DNA数据库的扫描文件。
在四川警方工作人员蒋晓玲看来,当时他们的期待,只是为寻找孩子多一条路,能走通就走,走不通,就再换一条路。
收集的10张照片,被统一送往企业的优图实验室里,他们再用数字化高清仪器将照片提取出来。
2018年11月,在进行了第一次的比对后,10个文件夹压缩包转交到蒋晓玲的手上。每个文件夹里有101张照片。第一张照片是被拐儿童两三岁的样子,剩下的100张照片,是100个13岁左右的儿童,他们以满分100分制降序排列。
这100张照片下方写着分数。蒋晓玲介绍,以75分为例,如果两个人脸比对分数超过75,则这两个人脸是“万里挑一的像”。再如98.3分,意味着照片中的人与被拐儿童有98.3%的概率是同一个人。
照片交回到四川警方,后续仍有繁杂的侦查和确认工作。蒋晓玲组织民警,先用四个多月的时间,进行了基础的刑侦和落地工作,最终的认定,还是需要通过DNA的数据比对。
比对工作先后进行了三次,第一次的比对,找到4个被拐孩子。2019年2月进行第二次比对,找到1名儿童。2019年3月第三次比对,又找到两名儿童。至此,这10名被拐儿童中,只有3人尚未被确认身份。
这个结果让蒋晓玲和团队惊喜,尤其是那张被拐时只有两三个月大的孩子照片,最终竟也能比中。在她看来,这初次的尝试,显示出技术的强大,而同时,算法也在不断进行优化,因此才有了先后三次的比对。至于剩余的三名被拐男孩,蒋晓玲怀疑,有可能不在汕头地区,而他们接下来的工作,除了寻找剩余的三名男孩外,还包括对涉案人员的追责。
2019年,正在服刑的王浩文再次被四川警方从监狱提出来,其他涉案人员也被再次抓捕,蒋晓玲表示,他们将按照漏罪处理,目前还在搜集证据中。
▲6月19日,借助跨年龄人脸识别,深圳失联19年男孩被找回,和父母相认。受访者供图
寻找年龄演变中不变的细节
这是跨年龄人脸识别技术配合警方打拐寻亲的第一次成功运用。
和普通人脸识别技术不同,跨年龄比对是一个公认的难点,青少年阶段人脸特征变化最大,而这些年龄跨度超过了10年的儿童,技术应用是一个非常大的挑战。
蒋晓玲告诉新京报记者,10年时间,孩子的变化之大,可能走到身边,父母都无法认出。她印象最深的,是DNA确认后,被拐男孩小杰和亲生父母相认的画面。夫妻俩见到孩子的第一件事,是翻开孩子右脚裤腿,那里有一处伤疤,是小杰在被拐前被开水烫伤的。
在看到伤疤后,夫妻俩低语着,“没错,没错”。这是不太会被时间改变的细节。
对于跨年龄人脸识别技术来说,同样的操作是,需要告诉它,一个人的面部随年龄演变时,不变的那些量是什么。比如,一个人的耳垂长得很特别,或者他的眉峰、眉骨走向不一样,再将这些转化成数学语言。
技术人员需要通过各种数学语言教导AI——“这是同一个人。”“这是这个人1岁的样子,5岁的样子,10岁的样子,30岁的样子。”“这个大人的照片,跟其他小孩子都是不像的。”
现实条件中,照片的质量、人脸的角度、遮挡、光线都有可能对AI的判断带来影响,AI技术,需要尽量克服其他因素的影响,去获得人脸特征。蒋晓玲在收集照片时,会尽量要求家属提供正面的、相对清晰的照片,而这次比对的经验显示,一张正面的照片,比对结果比清晰的更为重要。
鉴于四川的成功案例,2019年四五月,深圳警方将17个拐卖儿童的积案重新整理收集照片,利用AI技术在广东省的数据库进行比对。
广东省公安厅刑侦局反黑处打拐科袁炎良在四川这次行动前,就已经联系过多家企业,他想到既然成年人可以比对,能否尝试将儿童小时候和长大后的相貌也进行比对,但此前的多次尝试,均以失败告终。
深圳是一个外来人口较多的城市,与四川不同的是,这17起积案,他们没有找到嫌疑人,也没有孩子的明确去向,这次比对,属于盲比。“用这个技术试一试,孩子是否被拐卖在广东省内。”袁炎良也没有想到,最终能在17起积案中,比中5人,其中时间最久的,已经被拐19年时间。
那是2000年,深圳罗湖发生一起绑架儿童案,绑匪索要赎金二十万元,随后小孩和绑匪却消失了。多年来,警察没有放弃寻找,也曾找画像专家进行跨年龄模拟画像。孩子失联时只有3岁,19年过去了,他被找到时在深圳一家餐厅当厨师。
这是技术给打拐寻亲带来的进步。
▲优图团队使用跨年龄人脸识别技术进行实验。来源腾讯优图
AI寻亲能否向全国范围推广
四川和深圳的成功,能否将跨年龄人脸识别技术从个案推向全国范围,这是公安部打拐办新的考虑。
事实上,2017年3月,百度与寻亲平台“宝贝回家”开展合作,首批2万多条寻亲数据接入百度跨年龄人脸识别系统对比评测,并筛选出部分疑似案例。被拐27年的付贵成为第一例寻回的走失儿童。
2018年,民政部开发的全国救助寻亲网,已经上线由百度提供的“人脸对比寻亲”的功能。寻亲者通过上传走失亲人照片与站内照片进行比对,可以查询全国2000家救助站中是否有自己亲人。其中也包括跨年龄识别。
同年底,今日头条旗下公益寻人平台“头条寻人”也正式推出“识脸寻人”功能。用户上传走失者照片,即可与头条寻人后台的走失人员数据库直接对比匹配结果。但AI寻亲要想大规模应用,对于企业来说,还有很多复杂的难题。腾讯安全管理部安全专家汤海鹏在接受媒体采访中提到,跨年龄识别技术要想大规模应用起来,复杂的不是技术,是难以落到实处却又更加触及根本的伦理道德难题,如果想在全国推广,这个过程会很长,因为涉及很多要协调的事情。
汤海鹏这样形容:“从理论上来说,如果把全国人的DNA都检测比对一遍,拐卖儿童的案子不会有一件破不了,但人人都知道,这在实际上是不可能实现的。”
公安部刑侦局打拐办副主任孟庆甜向新京报记者介绍,事实上,因四川和深圳的成功案例,已经有其他省开始提出相同的需求,希望借助跨年龄人脸识别技术,帮助寻找多年前被拐卖的儿童,他们也在试图解决技术推广中的难题,向全国其他省市推广。
在警方看来,跨年龄人脸识别技术目前仍处于初步发展阶段,其主要的需求,是运用在线索中断多年寻亲未果的历史积案中。
近年来,尤其是2009年开展的“全国打拐专项行动”和2014年《刑法修正案(九)》实施以来,收买被拐卖儿童将被追究刑事责任,人们的反拐意识在不断提高,现代的技术侦查手段也在不断进步,拐卖儿童的数量在不断减少,案件多数可以快速侦破解救被拐儿童。
根据公安部的数据显示,2016年5月15日,公安部研发,阿里巴巴集团提供技术支持的“公安部儿童失踪信息紧急发布平台‘团圆’”系统正式上线,截至2019年5月15日,平台发布儿童走失信息3978条,找回3901名,找回率98%,其中解救被拐儿童57名。这意味着,在近3年公安部发布的走失儿童中,仅有57名儿童是被拐卖。
孟庆甜提出,跨年龄人脸识别技术实际上也是一种辅助手段,帮助警方将解救范围不断缩小,而最终的认定,还是依靠DNA数据比对。
2009年,公安部建立打拐DNA信息库,通过进一步完善网上比对和线下调查核实,截至目前,已经帮助6100余名被拐多年的儿童和家人团聚。此后仍将进行功能升级,扩大比对的数据范围。
而在公安部陈建锋看来,借助跨年龄人脸识别技术是警方寻找被拐儿童的方法,但解救被拐儿童并不仅仅是依靠一张照片,其中还有公安的大量侦查和落地工作。而对于走失家庭来说,自己寻找的结果太过渺茫,建议前往公安部门采血入库,被拐儿童有自主想法后,也主动前往公安部门采血。“很多时候,寻亲只是一滴血的距离。”
▲民警黄荣成。受访者供图
亲历者说
希望被拐孩子都回到父母身边
黄荣成,四川省资阳市公安局雁江区分局刑侦大队民警
我从2006年开始负责打拐案件,已经有13年时间。
2009年2月18日,资阳一农贸市场里,4岁的男孩丰丰(化名)被拐。孩子母亲在市场里卖水果,中午12点丰丰独自玩耍跑出市场,直到下午一两点,家里才发现孩子没有回家,他们在市场里找了一天,次日选择报警。
农贸市场里没有监控,嫌疑人很可能是流窜作案,当天就将小孩带往其他城市,根据家长和群众举报的线索,我们逐一排查,但最终没有找到涉案嫌疑人。
直到2014年,嫌疑人王浩文被抓,他交代了2009年前后拐卖10名儿童,丰丰也是其中一人,但他交代的中间人始终没找到,只知道孩子被卖到广东汕头。
从2014年到2018年这四年时间,我作为专案组的一员,先后去往汕头几十次,每一次都至少需要一周的时间,尝试着各种方法寻找孩子,但始终没能找到。
刚开始得知腾讯的AI技术时,要我们收集孩子被拐时的照片,我们是不抱太大希望的,毕竟只有孩子3岁时被拐的照片,认为最多能找到一两个,可第一次比对后,就找到了4个孩子。
丰丰最终被解救时,正处于青春期,考虑到孩子的承受能力,我们协商后组织了双方家长见面,等孩子长大成熟后,再让他知道真相。
我从事打拐工作已经多年,还有很多被拐20年甚至30年的积案,没有任何线索,每次看到这些寻子的家长,时常会感到愧疚。我希望每一个被拐的孩子都能回到父母身边。
针对积案,除了AI 技术的支持外,现下我们的工作主要是尽最大努力收集寻亲家长的信息,进行抢救性的采血入DNA库,发现线索及时跟进。毕竟那些家长年龄已经五六十岁了,他们寻找孩子的愿望更加强烈,DNA比对通常需要父母双方的血液信息,一旦离开一人,没有采血入库,孩子可能永远也找不到了。
同题问答
新京报:你认为新中国成立70周年,最大的变化和进步是什么?
公安部刑事侦查局打拐办主任陈建锋:
从打拐领域来说,经过10年严打,中国国内拐卖妇女儿童的案件,已经得到了根本性的遏制,中国普通民众的反拐意识也普遍提高。从寻亲的角度来说,民间传统的方法很多是盲目的,比如到处贴寻人启事,但现在随着各种科技手段的运用,包括DNA技术和人工智能技术,使寻亲变为可能。
新京报记者 左燕燕 编辑 曹林华
值班编辑 潘佳锟 校对 薛京宁
本文为重案组37号(微信ID:zhonganzu37)原创内容
未经新京报书面授权,不得转载和使用
欢迎朋友圈分享
----------以下为推广----------