大数据侦查之公交卡记录抓小偷

2016-08-25 蓝帽警用科技

从海量的公交卡出行记录中识别出小偷，是不是令人脑洞大开的想法？小偷是喜欢去西单偷东西呢还是喜欢去回龙观呢？刚刚召开的KDD2016（知识发现和数据挖掘大会）上的一篇文章介绍了一种分析智能公交一卡通数据研究北京公交、地铁上乘客的出行规律，从而识别扒手的方法。该研究成功地识别出了92.7%的小偷。(转摘自“计算化侦查”),本文的最后提供了原始论文的下载链接。

大数据时代的到来给公安工作带来了前所未有之机遇，包括犯罪分子在内的所有的人都已经被数字化。每个人的几乎所有的生产和生活的活动都已经被数字化、网络化、可计算化。这也使得利用智能学习的计算模型来对人的行为（对犯罪分子而言可能是犯罪行为）进行预测、对人的情感（包括性格、感情和犯罪心理等）进行分析成为可能。

论文简介：在旧金山举行的KDD2016学术会议上，罗格斯大学的Hui Xiong等学者向大家报告了他们的研究论文“Catch Me If You Can:Detecting Pickpocket Suspects from Large-Scale Transit Records”。论文报道在2014年的前9个月就有350个扒手在地铁交通系统上被抓，490个扒手在公交车上被抓。因此，他们对北京智能公交一卡通数据的分析研究，根据异常交通记录分析来抓小偷。共使用了北京市2014年4-6月三个月间600万乘客的约16亿智能公交一卡通数据记录。如下图所示，Hui Xiong等将北京划分为多个小的局部的功能区块，并分析了896条地铁线经过的44524个公交车站和18条地铁线经过的320个地铁站的数据。首先，从每个人的日常出现记录中提取特征；然后，进行无监督的异常行人检测和有监督的模式分类，从而挖掘出异常的出行轨迹。

方法的基本原理：如下图我们可以看到很多从热点区域Ａ到热点区域Ｂ的交通轨迹，执行观察这些轨迹我们可以看到“绝大多数的行人会选择最优的交通方式（最短时间／距离，或者最少的换乘）”。但是，一个行人（嫌疑人）选择的交通路线为Ａ－＞Ｃ－＞Ｄ－＞Ｂ，这是非常奇怪的，对上述异常行为需要进一步的仔细分析，如果该人的异常行为足够多，那么他很可能是一名扒手。具体的识别小偷的方法细节请参考原文，本文的最后提供了下载的地址。

挖掘结果分析：

Hui Xiong公布了他们的研究结果，如下表所示，利用TS-SVM算法，可以达到92.7%的召回率（即能够正确地识别出92.7%的小偷），但是遗憾的是他们的精确度有点低（也就是说算法的虚警率较高）。

另外，论文还给出了工作日早上8:00-11:00的四种出行模型，如下图所示。

（a）正常的出行者，可以看出他们主要在居住地、工作地、途经区域活动。（b）旅游者，可以看出他们频繁地访问圆明园、天安门、南锣鼓巷等景点区域。（c）购物者，可以看出他们主要访问王府井、西单等购物区域。（d）扒手，他们是一种流浪的模式，没有清晰的目的地，他们频繁地换乘，随机的停留，经常进行短途的出行。他们还（一段时间内）频繁地访问多种功能区：交通枢纽（例如西直门）、购物区（例如王府井）、景点（例如鼓楼）【哈哈，终于知道小偷喜欢去哪里了！！】。对于正常人而言，他们短时间内只访问一个/一种功能区。

论文原文：请点击“阅读原文”下载原论文

地址为：http://www.kdd.org/kdd2016/papers/files/adf0629-duA.pdf

======================================================

此位置空缺，静等有意推广者“勾搭”！

电子邮件hlwjk@hotmail.com

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊

薅广电羊毛！100元话费实付94.6元，还有电费96.9充100元！招团长~

警察踢打校园欺凌者：当事人不愿返校，派出所拒收锦旗

疯传！广州地铁突发！警方介入