预测犯罪类型:情报收集和犯罪分析
摘要
随着人口的增加和社会收入水平差距的扩大,犯罪率不断攀升。犯罪会间接破坏社会结构和和平,给经济、社会参数和国家声誉产生更直接的负面影响,这对社会经济来说无疑是灭顶之灾。因此必须利用警务和其他等有限的预防资源。更现代的机器学习算法逐渐取代传统的方法,这些现代的算法能够利用特征与结果之间的关系复杂的情况下对犯罪进行预测,也就是说,可以提前对犯罪地进行预测。决策者和警察人员都可以使用这些预测结果来制定有效和明智的策略,减少犯罪活动并为国家的发展做出贡献。本文旨在通过构建一个机器学习模型来预测可接受的输出值,从而预测对沙特阿拉伯犯罪影响最大的因素。我们的结果表明,FAMD 作为特征选择方法在机器学习分类器上比 PCA 方法显示出更高的准确性。朴素贝叶斯分类器在两种特征选择方法上的表现都优于其他分类器,FAMD 的准确率为 97.53%,PCA 等于 97.10%。
1 介绍
自人类文明诞生以来,犯罪活动就一直是人类文明的一部分。犯罪水平对社会经济指标的负面影响不容低估。社会经济指标与犯罪水平之间存在显着相关性,其中社会经济指标依次增加犯罪水平,例如失业率、人均 GDP 等。犯罪分子在被定罪后不太可能寻求并能够找到工作,因此进一步提高了失业率,进而导致更多的犯罪[1]。纯粹就经济方面来说,犯罪的负面影响更加明显,举一个例子,我们可以看看犯罪水平与社区房价呈负相关的事实,研究还表明,犯罪水平的下降与增加的成反比房价上涨对社会整体经济发展造成影响[2]。因此,任何社会都必须遏制犯罪的蔓延。为了减少和预防犯罪,必须找出犯罪背后的原因,预测犯罪率,预测可能发生令人发指的犯罪的热点或地点,并制定应对措施。犯罪分析是犯罪学的一个分支,研究犯罪活动的行为模式并试图确定此类事件的指标。这样做的挑战是收集和分析如此大量的数据。例如赛义德等人 [3] 在他们的研究中指出,美国在 2011 年至 2015 年间发生了 372,392 起犯罪案件;随着天气 [4]、人口普查 [5] 等新特征的引入,分析数据变得更加突出,鉴于犯罪水平对它们的依赖性,更需要研究这些特征。
犯罪水平的起源和增长基于几个特征, 这些特征可以是不同的收入组、不同的种族背景、年龄组、家庭结构 [6]、教育水平 [7]、住房大小、就业人数到失业人数 [8]、该地区的人均警察人数 [9] ], 等等。
自由领域犯罪统计数据的可用性使得使用大数据和机器学习 (ML) 技术预测和预防犯罪成为可能,通过支持有限警察资源的优化分配以及模型预测的特定区域可以在特定时间内将额外的警察人员分配到已知的犯罪热点,从而降低犯罪发生的可能性。尽管用于分析的公共领域数据的可用性已经很好地满足了研究目的,但在它们对现实世界问题的实际适用性方面仍然存在三个主要障碍。
使用多变量分析 [7] 等的传统方法由于其易上手性而仍然被普遍采用,但成功映射数据以使其在现实世界中实时有用所需的准确度和复杂程度仍然一言难尽。尽管更高级的 ML 实现具有对具有大量变量的数据集进行建模的能力,但尚未对其进行最大程度的探索和实现。即使实施高级 ML 算法的研究在很大程度上提高了分类任务的准确性 ,但是它在实施之前忽略了特征选择的重要性[10]。
多项研究表明,犯罪世界按照自己的规则已经形成了一个复杂的网络。为了高精度地预测犯罪率,必须了解犯罪的“性质”。关于该主题的现有研究表明,犯罪活动与许多因素(特征)有关。其中一些考虑了各种单独的参数,并显示了这些参数中的变化如何影响犯罪率或犯罪活动。据观察,城市中的犯罪活动不是随机组织的,它们取决于导致给定位置存在犯罪热点的因素的数量,KNN(K-最近邻)运用城市空间分析以绘制最有可能受到犯罪活动困扰的街区 [11],尽管该研究并未使用任何复杂的机制来确定可能有助于提高犯罪活动准确性的基本特征模型。
研究还表明,犯罪水平与环境温度显着相关,温度升高会增加我们血液中血清素的水平,这会直接增加人与人之间的互动并增加人群之间的冲动,导致犯罪水平上升[12]。不出所料,失业率也发现了显着的相关性 [8],该研究还通过研究犯罪就业弹性来考虑与商业周期相关的季节性,这解释了一些研究发现在犯罪和失业问题上,如果考虑到失业的周期性,以及之前得出的关系仍然是显著的,然而这一点却被他们忽视了。
最近使用更复杂的机器学习算法来映射数据集的研究不受先前研究的一些局限性和偏见的影响。把传统算法与现代算法能力相比较,结果表明,机器学习算法可以映射任何给定的多样化数据集,比传统算法更好 [13];该研究比较了从线性回归模型、逻辑回归模型和梯度提升获得的准确度,不出所料,简单逻辑回归模型在给定的模型集中表现最差,因为它无法映射任何非线性依赖关系。然而,该方法也可能存在一个缺点,即确定准确性的标准可能会导致来自线性回归模型的悲观值预测干扰而丧失准度,从而让人感觉模型在进行预测时表现更好没有实际意义。其他研究试图使用更广泛的特征来预测犯罪的空间分布,例如人口普查数据、路灯 [5]、人均 GDP [14]、酒精消费量 [8]。
完整资料已上传知识星球
本期编辑:ZHZ
如有侵权,请联系管理员删除
通过“情报学院”知识星球可以阅读该资料的全都内容👇