Yolo框架大改 | 消耗极低的目标检测新框架(附论文下载)
计算机视觉研究院专栏
作者:Edison_G
使用常规深度神经网络到脉冲神经网络转换方法应用于脉冲神经网络域时,性能下降的很多,深入分析后提出了可能的解释:一是来自逐层归一化的效率低,二是用于leaky-ReLU函数的负激活缺乏表示。
在过去的十年中,深度神经网络(DNNs)在各种应用中表现出显著的性能。当我们试图解决更艰难和最新的问题时,对计算和电力资源的需求增加已经成为不可避免的。
Spiking neural networks(SNNs)作为第三代神经网络,由于其事件驱动(event-driven)和低功率特性,引起了广泛的兴趣。
然而,SNN很难训练,主要是因为它们的神经元复杂的动力学和不可微的尖峰操作。此外,它们的应用仅限于相对简单的任务,如图像分类。
在今天的分享中,作者研究了SNN在一个更具挑战性的回归问题(即对象检测)。通过深入分析,引入了两种新的方法:channel-wise normalization和signed neuron with imbalanced threshold,这两种方法都为深度SNN提供了快速的信息传输。因此,提出了第一个基于尖峰的目标检测模型,称为Spiking-YOLO。
2.新框架贡献
尽管SNN有很多好处,但目前仅能处理相对简单的任务,由于神经元复杂的动态性以及不可导的操作,暂时没有一个可扩展的训练方法。DNN-to-SNN是近期广泛的SNN训练方法,该方法将目标DNN转化成SNN的中间DNN网络进行训练,然后转成SNN并复用其训练的参数,在小数据集分类上能达到不错的性能,但是在大数据集上分类结果不太理想
论文打算使用DNN-to-SNN转化方法将SNN应用到更复杂的目标检测领域中,图片分类只需要选择分类就好,而目标检测则需要神经网络进行高度准确的数字预测,难很多。在深入分析后,论文实现YOLO的转换主要面临以下两个问题:
常用的SNN归一化方法过于低效,导致脉冲发射频率过低。由于SNN需要设定阈值进行脉冲发射,所以要对权值进行归一化,这样有利于阈值的设定,而常用的SNN归一化方法在目标检测中显得过于低效,后面会详细阐述
在SNN领域,没有高效leaky-ReLU的实现,因为要将YOLO转换为SNN,YOLO中包含大量leaky-ReLU,这是很重要的结构,但目前还没有高效的转换方法
来自韩国的比较冷门或者前沿一点的文章,研究方向是脉冲神经网络(Spiking Neural Networks)与YOLO算法的融合,发现韩国人特别擅长对YOLO,SSD等算法进行魔改啊。
提出一种在深度SNN中能够进行快速精确信息传输的Spiking-YOLO算法。这是第一次将深度SNN成功应用于目标检测任务的工作;
为深度SNN开发了一种成为逐通道归一化的精细归一化技术。所提出的方法使得在多个神经元中更高的发射率成为可能,这促成了快速并且精确的信息传输;
提出了一种新颖的方法,其特点在于具有不平衡阈值的带符号神经元,这些神经元让SNNs中的leakyReLU得以实现。这给深度SNN应用于各种模型和应用创造了机会。
3.新框架
Channel-wise data-based normalization
在SNN中,根据输入的幅度产生脉冲序列进行无损的内容传递是极为重要的。但在固定时间,激活过度或激活不足的神经元内将可能导致内容损失,这和临界电压
基于数据的逐通道归一化
传统的脉冲神经网络中,需要确保神经元根据其输入大小产生脉冲序列,其中权值和阈值电压分别负责神经元激活的充足度和平衡度,这会导致要么欠激活要么过激活,从而使信息丢失和性能不佳。
作者深入分析并证明了细粒度的通道正则化可以通过极小的激活来提高神经元的发射率。换句话说,非常小的激活被正确归一化,将在更短的时间内准确地传输信息。文章认为通道正则化的应用可以带来更快更准确的深度SNN,这将使深度SNN应用于更高级机器学习问题成为可能。
Signed neuron featuring imbalanced threshold
具有不平衡阈值特征的带符号神经元
引入了一种具有不平衡阈值(即IBT)的带符号神经元,它不仅可以对正负激活进行解释,还可以对leakyReLU负激活值区域的渗漏项进行补偿。如下图所示,作者增加了另外一个Vth负责对负激活响应。
4.实验结果与评估
作者使用Tiny YOLO的实时目标检测模型,在脉冲神经网络中实现最大池化层和BN层。模型在PASCAL VOC2007和2012上训练,在PASCAL VOC2007上测试。所有代码基于Tensorflow Eager框架,在V100的GPU上进行实验。
文章通过实验的设计验证并分析了使用通道正则化和有符号神经元的IBT存在的用处。如下图所示,当通道正则化和有符号神经元都使用时,脉冲-YOLO能够达到51.61%的mAP,这个性能比较高了。
此外,逐层正则化的mAP仅仅46.98%,而通道正则化优势明显,收敛速度也更快。如果不使用本文提出的这两种方法,Spiking-YOLO无法检测目标,如果仅仅使用有符号神经元的话,mAP仅仅7.3%,这表明有符号神经元可以补偿leakyReLU的不足项,并且在解决深度SNN中这种高数值精度问题中起着关键作用。
在上图中,作者还在两种输出编码方案上进行了额外的对比实验,一种基于累计Vth,一种基于脉冲数量。实验结果表明基于Vth的输出编码方案在解释尖峰序列时将更精确,也体现出收敛更快的特点。
在今天分享中,作者提出了Spiking-YOLO,第一个SNN模型,通过在non-trivial datasets、PASCALVOC和MSCO上获得与原始DNN相似的结果来成功地执行目标检测。
我认为,这项研究代表了解决深度SNN中更高级的机器学习问题的第一步。
长按扫描二维码关注我们回复“SYolo”获取论文