科技创新|学院李水旺老师团队的科技成果被计算机视觉领域国际顶级会议ICCV 2023录用!
近日,信息科学与工程学院李水旺博士课题组在前期研究的基础上,提出了一种自适应背景感知的跟踪框架,基于ViT,用于实现实时的无人机目标跟踪。
在这项工作中,作者将特征学习与template-search耦合集成到一个高效的单流ViT中,以避免额外繁重的关系建模模块。所提出的Aba-ViT利用自适应和背景感知的token计算方法来减少推理时间。该方法基于学习到的停止概率自适应地丢弃token,丢弃的条件是背景token的停止概率高于目标token的停止概率。在六个无人机测试基准上做了大量实验表明,所提出的Aba-ViTrack在无人机跟踪中达到了目前最佳性能表现。如下图所示,与基于DCF和CNN的方法比较,该方法在UAV123上以0.864的精度创造了新纪录,并仍然以180fps的速率高效运行。
作者设计了可以同时进行特征学习和template-search耦合的Aba-ViT。这种统一的方案使特征学习和template-search耦合在整个过程中相互作用,不仅简化了推理过程,而且使其更加有效,因为特征学习变得更加具体,而template-search耦合更广泛地执行,以更好地捕获他们之间的相关性。此外,自适应和背景感知的token停止机制可以使大量背景不参与推理过程,加快了模型的推理速度。然后给出了整个无人机跟踪框架,该框架包含一个基于Aba-ViT的骨干网络和一个基于CNN的预测头。
作者首次尝试在统一的template-search耦合框架中使用高效的ViT来实现无人机的实时跟踪,提出了一种广义的ponder损失函数,利用背景和目标的先验信息进行背景感知和更有效的自适应停止。通过大量实验表明,Aba-ViTrack在六个具有挑战性的测试基准上达到最好的性能。预计该工作将激发创造更高效的基于ViT的跟踪器,推动无人机跟踪的发展。
相关研究成果以“Adaptive and Background-Aware Vision Transformer for Real-Time UAV Tracking”为题在国际顶级计算机视觉会议ICCV 2023(CCF A)上发表。
如果您希望我们继续推广此类推文,请在推文底部点赞和在看,同时也欢迎您给小信私信留言,提出更好的建议,我们会虚心改进。
您的鼓励,是我们前进的动力!感谢您的关注。
我已入驻【抖音】
快来关注
信息科学与工程学院
易班·融媒体中心
编辑:刘耀升
图文:李水旺老师团队
校对:卢蔚倩 吴华茵
责任编辑:李雪君老师
学生风采 | 追风赶月莫停留,平羌尽处是春山,23级小研新前来报到!
活动发布 | 别人都在放暑假,小信喊你防溺水!“易知”夏季防溺水知识竞赛来啦~
信息科学与工程学院官方微信公众号:GUT-XXXY