查看原文
其他

实战 | ​​保险业智能人群计数研究与应用

金融电子化 金融电子化 2022-09-24

文 / 中国人寿保险股份有限公司    张文涛  张洪涛  鞠芳  安靖  唐辉

▶️ 点击查看视频


保险业人群计数需求背景

保险业作为金融行业的一个重要组成部分,保险宣传、人员管理和客户服务等经营业态也产生了显著变化。相比过去,保险公司拥有更多的保险分支经营机构和经营人员队伍。各级机构和人员定期开展丰富的产品说明会、职场培训和客户回馈等服务活动。为了掌握分析各种活动的开展效果,需要快速有效统计各活动现场的参与人数。当前,计算机视觉等人工智能技术在各个领域大方光彩,诸如图像分类、目标检测、行人重识别、人脸识别等技术给各个行业带来了巨大变革。其中,智能人群计数(Crowd Counting)技术在公共安全、监控和智能交通等领域已被广泛应用。人群计数技术在保险行业落地应用,可以准确快速统计各活动现场的人员数量,将为保险经营机构有效减少经营成本,产生显著的商业价值。


然而,在初步落地探索中发现,保险行业的各种人群计数需求场景中,存在诸如图像遮挡失真、尺度变换、背景亮度差异、人群分布不均等一系列复杂问题。此外,研究中还发现,目前的一些人群计数方法依赖于人体生物信息特征的提取,如果此类方法被落地使用,将对保险行业的整体信息安全性带来一定的风险。


针对上述智能人群计数在保险行业的需求和技术落地面临的问题,本文提出并实现了一种基于移动窗口的分层视觉变换器(Swin Transformer,SwinT)人群计数模型技术方法,有效解决保险业各种人群计数需求场景面临的各类问题,相比目前的人群计数方法,具有较高的准确性,并且该方法不依赖于对个体生物信息特征信息的提取,具有较高的信息安全性。


现有人群计数方法分析

1.基于手工特征的方法

早期的一些传统方法将人群计数视为检测问题,并构造手工特征表示待检人体。具体而言,需要从人头或人体中提取某种显著特征,如方向梯度直方图(Histogram of oriented gradient,HOG)等,随后接入回归器直接预测图像中人数。基于手工特征的传统方法受到场景图像质量的极大限制,不适用于目标对象重叠等复杂情况。此外,不同的场景需要定向设计不同的手工特征,单一的手工特征难以表征输入图像中人群分布的多样性。一直以来,基于手工特征的人群计数方法,检测准确率未能取得突破性进展,难以满足实际场景上的应用需求。


2.基于检测识别的方法

随着卷积神经网络(Convolutional Neural Networks,CNNs)的发展,计算机视觉各个领域的图像算法逐渐被卷积神经网络取代。在众多人群计数方法中,基于卷积神经网络的方法比传统方法有了显著的改进。通过将卷积核作为滑动窗口,神经网络能够在输入图像的各个区域进行特征提取;神经网络头部采用目标检测技术检测人体或者采用人脸识别技术确定人脸,以此来统计人数。然而,由于人体正面和背面特征相差较大,因此此类方法很难做到高准确率定位和识别人体和人脸,高密度高遮挡场景下将完全失去作用,而且存在人脸等生物特征泄漏风险和隐患。


3.基于密度图的方法

研究发现,基于检测识别的方法单纯使用整幅图像的特征进行回归和检测,忽略了图像的空间信息,导致最终的人群计数统计结果产生较大误差。针对这一问题,研究者提出了学习图像局部特征和其密度图之间的映射,从而在计数的过程中加入图像的空间信息的方法,并在实验中取得了较好的效果。基于密度图的计数方法逐渐成为主流方法。这种方法不仅有较高的准确率,还能够适应高密度高遮挡和较复杂的各种生活场景。此外,非直观的特征采集和密度估计可以有效避免生物特征泄漏问题,可以在不关注个体信息情况下准确估计人群密度,提高信息安全性。


保险业人群计数方法实现

1.方法选择设计

综合考虑保险业人群计数对于准确率和生物特征安全性等方面的严格需求,在此采用基于密度图的方法,进行保险业人群计数设计和实现。


经过深入研究发现,尽管基于密度图的人群计数方法相比其他两类方法,在准确率等方面取得了较为显著的进展,但仍然存在一定的问题。如图1所示(直接密度图回归),密度图方法从输入图像“点”标注生成真值(Ground Truth)密度图“伪标签”,并以此作为监督信号,与网络输出的密度图一起计算相应的损失。从点标注生成伪标签的过程需要对点标注做高斯假设进行模糊处理,生成可用于训练监督的像素级真值概率密度。然而,由于目标之间高度拥挤和重叠,通过上述方法生成的概率密度仅仅是对实际概率密度图的一个粗略逼近,难以保证其准确度。此外,由于无法获得目标大小信息,因此在对每个标注点高斯假设时无法准确获得对应的高斯分布标准差,因此把不同目标的标准差粗暴设置为一个固定值,这种操作方式进一步影响了所生成概率密度图的准确度。为解决上述这些问题,在此引入了一种基于点监督的期望回归法。如图1所示(点监督期望回归),训练过程不再依赖从点标注生成伪标签,而是直接采用数据所提供的点标注作为弱监督信号。为了使监督信号格式匹配,在估计得到的概率密度图的基础上进行了“期望”操作,利用“离散”的概率密度期望值与“离散”的点标注进行期望值回归估计。


目前,变换器(Transformer)架构已经成为自然语言处理任务的实际标准,基于移动窗口的分层变换器(Swin Transformer,SwinT)在计算机视觉领域的应用也取得了较好的效果。SwinT通过移动窗口计算特征,限制不重叠的局部窗口进行自注意力计算,同时允许跨窗口连接。这种移动窗口方案不仅提升了特征的提取效果,也提高了网络计算得运行效率。目前,变换器结构在计算机视觉领域包括图像分类、目标检测、语义分割等都取得了最优的效果。在此,将其应用到人群计数中作为主体网络,以进一步提升人群计数的准确率。

图1    直接密度图回归和点监督的期望回归


2.方法网络结构

本文基于移动窗口的分层视觉变换器和点监督的期望回归方法,提出了一种新型人群计数模型SwinT-CC模型方法。


如图2所示,SwinT-CC是一个典型的编码-解码(Encoder-Decoder)网络结构。其中,SwinT Block是通过一个基于移位窗口的模块取代Transformer Block中的标准多头自注意模块(MSA)构建的。SwinT Block包括一个基于移动窗口的MSA模块、一个2层MLP和GELU非线性层,在每个MSA模块和每个MLP之前添加一个LN层,在每个模块之后再应用一个剩余连接。SwinT-CC编码阶段是一个下采样过程,利用SwinT提取图像各个层次特征,随着特征提取阶段的增加,特征图尺寸逐渐减半,通道数逐渐加倍。SwinT-CC解码阶段是一个上采样过程,利用统一感知解析网络(UPerNet)不断融合编码阶段各个层次特征并逐渐加倍特征图尺寸。


编码阶段(Encoder)。首先通过块分割模块(Patch Splitting Module)将输入图像分割成不重叠的分块,每个分块的特征被设置为原始像素值的串联。使用的4×4分块,分块的特征维数为4×4×3=48。在该原始值特征上应用线性嵌入层,将其投射到任意维度C。在这些分块上使用SwinT Block,变换器块维持分块的数量是H/4×W/4,与线性嵌入(Linear Embedding)一起被称为“阶段1”。为了生成分层的特征表示,随着网络的深入,通过分块合并层(Patch Merging)来减少分块的数量。第一个分块合并层将相邻2×2的每一组分块的特征拼接起来,并在4C维的拼接特征上应用一个线性层。此时分块数量减少4倍,并且输出维数设置为2C。然后使用SwinT Block进行特征变换,特征图尺寸保持在H/8×W/8,第一块分块合并和特征转换称为“阶段2”。该过程重复两次,分别为“阶段3”和“阶段4”,输出特征图尺寸分别为H/16×W/16和H/32×W/32。


解码阶段(Decoder)。解码阶段相较于编码阶段是一个反向过程,它的“阶段1”特征图尺寸是H/32×W/32,随着反向阶段增加,逐渐进行上采样,“阶段2”、“阶段3”和“阶段4”的特征图尺寸分别是H/16×W/16、H/8×W/8和H/4×W/4,最后对四个阶段生产的特征图进行连接获得一个混合特征图(Fused Feature Map)。

图2    SwinT-CC和SwinT Block网络结构


损失函数(Loss)。采用基于点监督的期望回归的贝叶斯损失函数(Bayesian Loss,BL)。定义如下:


其中,E[cn表示出现第n人的期望,F(0-E[c0]) 为动态的背景哑元(Dummy Background Point)。利用背景哑元,可以“吸收”远离人群的背景区域像素的“贡献”,从而更为准确的计算背景区域的似然及最终的后验概率。在预测阶段,给定输入预测图片,通过卷积神经网络模型得到人群密度估计图Dest(xm),并对输入图片的人群密度估计图Dest(xm)求和,即可得到该图片的预测目标计数。


3.方法效果验证

评价标准。本次效果验证采用了人群计数任务中两个广泛使用的指标,即平均绝对误差(MAE)和均方误差(MSE):


其中,为测试图像的个数,NC分别为真实人数和对第k幅图像的预测人数。MAE和MSE的数值越小,表示计数精度越高。


实验数据。实验过程中,使用了UCF-QNRF、ShanghaiTech part A和part B三份广泛使用开源数据集。UCF-QNRF是最新和最大的人群计数数据集,包括1535张图片,训练集1201张,测试集334张。ShanghaiTech由A和B两部分组成:A部分有300张训练数据和182张测试数据;B部分来有400张训练数据和316张测试数据。这三份数据中,UCF-QNRF人群密度最高,其次为ShanghaiTech part A,ShanghaiTech part B。


对比结果。如表1所示,在此对SwinT-CC在和目前其他流行的人群计数模型做了对比实验。与基准模型BL相比,SwinT-CC在三个开源数据集上的MAE和MSE均有较高的降低,分别降低了1.2和4.1;与基准模型S-DCNet相比,SwinT-CC在UCF-QNRF和ShangHaiTechB均取得了较优效果,在ShangHaiTechA上稍显劣势。与基准模型M-SFANet相比,除在UCF-QNRF上MAE略高之外,其他数据上的MAE和MSE均有所降低。从以上实验数据不难看出,SwinT-CC相较于其他基准模型,对人群密度不均的数据集具有更高的通用性,在密度较低的数据集表现最好,同时对于人群密度极高的数据集也能有较好的效果。


表1    SwinT-CC和最优模型评价指标对比


保险业人群计数应用效果

相比公开数据集,保险业人群计数场景中的人群密度较低。为进一步验证SwinT-CC方法在保险业人群计数场景上的应用效果,在保险业各类应用场景中收集了585张图片数据用于效果验证。图3为其中一张测试图像的人群计数效果图。所有的测试图片测试结果统计分析后显示,SwinT-CC方法在保险业场景图片中人群计数检测的MAE和MSE分别是1.3和2.7,即在每张测试图片中,人群计数平均误差在1.3人左右,误差远远低于在公开数据集上的测试误差。SwinT-CC方法的准确率可完全满足保险业对于人群计数的准确率需求。并且SwinT-CC方法不依赖于对个体生物信息特征信息的提取,可以有效保证保险业对于信息安全性的要求。

图3    人群计数效果样例




此篇同步【金科E学堂】,请点击阅览






往期精选:

(点击查看精彩内容)


● 实战 | 多源数据技术体系下数据即席查询的探索与实践

● 实战 | 远程银行探索与实践

● 实战 | 云室吸气式极早期探测预警系统在数据中心火灾防范的应用

● 实战 | 运维动态口令管理模式拓展与实践

● 实战 | 证券行业风险资讯监测应用实践






《金融电子化》新媒体部:主任 / 邝源  编辑 / 傅甜甜 潘婧

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存