SFFAI分享 | 张志鹏：SiamDW Real-Time Visual Tracking【附PPT与视频资料】

Original 张志鹏人工智能前沿讲习 2022-05-21

收录于合集 #独家解读 142个

关注文章公众号
回复"SFFAI38"获取PPT资料
视频资料可点击文末阅读原文在线观看

导读

目标跟踪是计算机视觉的基本任务之一，近年来随着大量跟踪数据库如OTB,VOT,LASOT,GOT10K的提出，以及VOT比赛的推广，单目标跟踪领域迅速发展。而这其中siamese跟踪算法由于其在速度和精度之间很好的平衡而逐渐成为单目标跟踪研究中最火的方向。然而在今年之前，siamese跟踪算法仍然是只是基于浅层的AlexNet，深层网络不但没有帮助反而会使效果下降。在CVPR19中，我们通过对网络结构属性的分析，提出网络padding, 感受野, 特征输出大小，stride是影响加深网络的关键。进而我们提出了适用于跟踪siamese网络的crop-in-residual模块，通过堆积模块加深网络，使深层siamese网络在跟踪上效果有了显著提高。本次分享会上我们：

(1) 首先回顾了Siamese跟踪的几篇经典论文；

(2) 介绍了我们在CVPR2019的工作：Deeper and Wider Siamese Networks for Real-Time Visual Tracking；

(3) 分享关于Siamese跟踪的感悟。

作者简介

张志鹏，中科院自动化所模式识别国家重点实验室，研二，导师胡卫明。研究方向为单目标跟踪。

目标跟踪介绍

单目标跟踪是在给定物体和初始位置的情况下，跟踪得到后续每帧目标的具体位置。作为时序问题，目标跟踪除了面对图像质量和目标形变/遮挡等挑战外，时序上误差累计导致的漂移也是跟踪所面对的严峻问题。近期Siamese网络由于其在performance和efficiency的良好的平衡得到广泛关注。

相关工作

SiamFC和SiamRPN

Siamese网络将目标跟踪定义为matching问题，抽取前一帧目标位置周围的候选框对应的特征，将其与模板(通常为第一帧)进行匹配得到跟踪结果。如果每个框都进行特征抽取(SINT做法), 其时间成本非常高。SiamFC将候选特征抽取和匹配的过程转化为全卷积操作，通过模板特征在候选图特征上进行滑窗卷积，快速得到最大响应的位置。但是SiamFC的一个问题是没有快速的尺度估计算法，SiamRPN通过加一个新的尺度回归head使得到的目标更加精准。近期Siamese的主要工作都围绕SiamFC和SiamRPN展开。

SA-SIAM和SPM

SA-SIAM和SPM是MSRA同一团队在CVPR2018和CVPR2019的两篇工作。SA-SIAM引入一个辅助网络，两支网络分别在不同数据集上训练，作者将其称为SNet和ANet。SNet在ImageNet上训练，ANet在跟踪数据集上训练。两只网络由于训练时目的不同，所关注的特征也不相同，通过两支网络结果融合有效的提高了跟踪准确率。SPM的核心思想是做结果的二次refine。首先模型粗略搜索得到一个结果，然后将这个结果送达第二级refine模型进行微调。

Motivation and Analysis

在今年之前Siamese跟踪网络的backbone仍然是浅层的AlexNet。按照深度学习的常识，在一定范围内随着网络加深，模型效果会越来越好。所以在不改变其他条件的基础上，我们将网络的backbone替换为更深的VGG，ResNet和Inception。然而，这种直接的替换不但没有带来性能提高，反而让性能急剧下降。

为了找到其中的原因，我们通过大量实验对网络中的影响因子进行了详细的分析。

我们发现，感受野(RF)，特征输出大小(OFS), 网络stride，和padding对性能都有关键影响。首先对于Siamese网络来说必须先消除padding带来的感知不一致的问题，如下图所示。

当没有padding时，siamese两支网络感知一致，当有padding时感知一致性被破坏，造成定位不准(详见paper)。感受野和输出大小的影响呈现处单峰的趋势，过大过小都不好。Siamese跟踪本质上是patch tracking的过程，模板被抽象成一个有spatial信息(如6*6)的特征嵌入。感受野过小则特征抽象程度不够。感受野过大的话相邻两个patch重合度很大，造成特征嵌入整体diversity比较小，也会使其判别力降低。如下图所示。

根据实验分析，我们得到如下设计Siamese跟踪网络的guidelines：

（1） Siamese跟踪网络偏向于比较小的stride，如4或8；

（2）网络感受野在输入模板大小的60%-80%比较合适；

（3） Stride，感受野，输出大小相互耦合，在设计网络时候要综合考虑；

（4） Siamese跟踪网络要消除padding带来的感知不一致的问题。

网络设计

根据上述提出的guidelines，我们设计了CIR和CIR-D模块。CIR模块简单有效的消除了感知不一致的问题，并且block内crop的做法一定程度起到了加速作用。

通过堆叠CIR模块，我们设计了不同的深度Siamese跟踪网络并取得了明显的performance增益。

一些可能不成熟的经验

Siamese网络对超参和训练数据都很敏感，一定要多实验验证；
跟踪近年发展很快，每年都会有很大的performance增幅，但只刷点不应该是学术的重心，还是应该提供更多更好的分析思路；
多和别人讨论，扩展思路。

Code

https://github.com/researchmm/SiamDW.git

SFFAI招募召集人！

现代科学技术高度社会化，在科学理论与技术方法上更加趋向综合与统一，为了满足人工智能不同领域研究者相互交流、彼此启发的需求，我们发起了SFFAI这个公益活动。SFFAI每周举行一期线下活动，邀请一线科研人员分享、讨论人工智能各个领域的前沿思想和最新成果，使专注于各个细分领域的研究者开拓视野、触类旁通。

SFFAI自2018年9月16日举办第一期线下交流，每周一期，风雨无阻，截至目前已举办38期线下交流活动，共有74位讲者分享了他们的真知灼见，来自100多家单位的同学参与了现场交流，通过线上推文、网络直播等形式，50000+人次参与了SFFAI的活动。SFFAI已经成为人工智能学生交流的第一品牌，有一群志同道合的研究生Core-Member伙伴，有一批乐于分享的SPEAKER伙伴，还有许多认可活动价值、多次报名参加现场交流的观众。

我们邀请你一起来组织SFFAI主题论坛，加入SFFAI召集人团队。每个召集人负责1-2期SFFAI主题论坛的组织筹划，我们有一个SFFAI-CORE团队来支持你。一个人付出力所能及，创造一个一己之力不可及的自由丰盛。你带着你的思想，带着你的个性，来组织你感兴趣的SFFAI主题论坛。

当召集人有什么好处？

谁可以当召集人？

怎样才能成为召集人？

为什么要当召集人？

了解我们，加入我们，请点击下方海报！

历史文章推荐

录播视频，请点击下方

阅读原文

观看

↓↓

若您觉得此篇推文不错，麻烦点点在看↓↓

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

SFFAI分享 | 张志鹏：SiamDW Real-Time Visual Tracking【附PPT与视频资料】

周龙：同步双向文本生成

王亦宁：Multilingual Neural Machine Translation

常建龙：基于关系的深度学习

呼奋宇：深度层次化图卷积神经网络

崔泽宇：套装搭配推荐在图神经网络上的应用

张文：Recent Advances in NMT

邵晨泽：非自回归机器翻译

连政：端到端语音合成

黄健：语音情感识别

纪厚业：Heterogeneous Graph Attention Network

高君宇：图神经网络在视频分类中的应用

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

生成图片，分享到微信朋友圈

SFFAI分享 | 张志鹏：SiamDW Real-Time Visual Tracking【附PPT与视频资料】

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡