The Innovation | 如何炼就孙悟空的“火眼金睛”?
导
读
视觉领域专注于让算法能够像人眼一样“认识”图片和视频中的目标。视觉目标跟踪领域的研究则更为细化,试图让算法在识别单张图片目标的基础上,持续且准确地在视频中跟踪目标,不但“识别”目标,还要“盯住”目标不放。这对监控安防和自动驾驶等领域十分重要,例如,跟踪算法能够在一大段监控视频里自动识别并跟踪犯人活动轨迹,迅速从海量视频中定位有效信息。
图1 图文摘要
传统的跟踪算法高度依赖手工操作,人们对特定种类的目标单独设计专属“特征”,算法则根据这些手工设计的特征在视频和图片中寻找目标。显然,此类做法在目标外形变化较大时,需要重新设计对应的特征,不能很好地适应复杂应用场景。近年来,随着深度学习的兴起,使用深度神经网络来抽取目标的深度特征成为了主流方法。预训练过的深度神经网络能够自动抽取出具备鲁棒性的目标特征,使算法能够更好地处理多变的场景,避免频繁手动设计新特征。
为减少计算量,优化跟踪效率,当前主流的跟踪范式为在起始帧抽取目标特征,之后比较起始帧与后续每一帧中的目标特征,达到跟踪效果。此范式下,深度神经网络在训练完成后可直接使用,无需在应用过程中实时迭代,在推理速度和跟踪精度之间取得了不错的平衡。
视觉跟踪算法的发展日新月异,但该领域仍存在不少亟待解决的问题,这些问题可大致归纳为两种:鲁棒性问题和效率问题。尽管基于深度神经网络的方法已大大提升了算法的鲁棒性,对实际应用而言,当前算法仍然难以适应复杂场景。例如,当目标被短暂地遮挡或离开视野后,算法往往难以将再次出现的它们识别为同一目标;模糊与相似物体的干扰也会使算法出现跟丢的情况。此外,手机、无人机或各种边缘设备由于无法搭载足够强大的CPU和GPU,使得算法在这些设备上的运行效率不尽如人意,难以达到实时性和准确率的平衡。
未来的视觉跟踪领域应用前景广阔,算法的实用性也在逐步增强,今后的发展方向将聚焦在以下四个方面。首先是无监督学习的应用。以往的监督学习需要大量人工标注的数据进行训练,随着模型性能提升和复杂度增加,提升效果所需的数据量愈发庞大,逐渐超出人力能及的范围,因此无需人工标注数据的无监督学习方法可能成为新的突破口。二是大规模、更有效的模型预训练。当前预训练模型的数据主要来自图像分类数据集,并不完全适用于跟踪任务,一个专门为跟踪任务设计的预训练模型可能会拥有更好的表现。三是对干扰信息的进一步挖掘与利用。以往的算法会将与目标相似的背景当作干扰而忽视,更好地区分并排除干扰,也许恰恰需要对干扰目标也进行一定程度的关注和跟踪。最后是通过知识蒸馏以达到精简模型、提升效率的目的。更加精简的模型将具有更快的速度和更低的硬件要求,对落地部署与应用具有重要意义。
总结与展望
近年来视觉跟踪的应用场景不断拓展,在安防、自动驾驶等领域取得了诸多落地成果。随着硬件算力的进步和可获得的数据量爆炸式增长,我们将需要探索更多、更复杂的设计与实现思路,使算法的性能与效果变得越来越优秀,从而解锁更多样的应用场景,赋予AI一双智慧且明亮的眼睛。
责任编辑
肖 菲 中国海洋大学
杨 莹 中国科学院北京基因组研究所
扫二维码|查看原文
原文链接:https://www.cell.com/the-innovation/fulltext/S2666-6758(23)00030-9
本文内容来自Cell Press合作期刊The Innovation第四卷第二期以Commentary发表的“Visual object tracking: Progress, challenge, and future” (投稿: 2023-01-10;接收: 2023-02-16;在线刊出: 2023-02-20)。
DOI: https://doi.org/10.1016/j.xinn.2023.100402
引用格式:Zhang L. and Fan H. (2023). Visual object tracking: Progress, challenge, and future. The Innovation. 4(2),100402.
作者简介
张立波,博士,中国科学院软件研究所副研究员。长期从事智能基础理论、计算机视觉相关研究工作,在CVPR、ICCV、ECCV和IJCV、IEEE TIP等高水平国际会议和期刊上发表论文40余篇,获得视频语义分析竞赛LOVEU-GEBD的CVPR 2022年冠军和CVPR 2021年亚军,出版《图灵宇宙:原初纪元——计算机科学发展简史》,入选中国计算机学会2022年度推荐书目。中科院信息技术与人工智能专业委员会专家,中国电子学会软件定义推进委员会委员,获得2022年中国人工智能学会Mindspore学术奖励。
往期推荐
| |||
| |||
| |||
| |||
| |||
| |||
|
期刊简介
扫二维码 | 关注期刊官微
The Innovation是一本由青年科学家与Cell Press于2020年共同创办的综合性英文学术期刊:向科学界展示鼓舞人心的跨学科发现,鼓励研究人员专注于科学的本质和自由探索的初心。作者来自全球50个国家;已被116个国家作者引用;每期1/4-1/3通讯作者来自海外。目前有195位编委会成员,来自21个国家;50%编委来自海外;包含1位诺贝尔奖获得者,33位各国院士;领域覆盖全部自然科学。The Innovation已被DOAJ,ADS,Scopus,PubMed,ESCI,INSPEC,EI等数据库收录。秉承“好文章,多宣传”理念,The Innovation在海内外各平台推广作者文章。
期刊官网1(Owner):
www.the-innovation.org
期刊官网2(Publisher):
www.cell.com/the-innovation/home
期刊投稿(Submission):
www.editorialmanager.com/the-innovation
商务合作(Marketing):
marketing@the-innovation.org
Logo|期刊标识
See the unseen & change the unchanged
创新是一扇门,我们探索未知;
创新是一道光,我们脑洞大开;
创新是一本书,我们期待惊喜;
创新是一个“1”,我们一路同行。
第4卷第1期
第3卷第6期
第3卷第5期
第3卷第4期
第3卷第3期
第3卷第2期
第3卷第1期 | 第2卷第4期 | 第2卷第3期 | 第2卷第2期 |
第2卷第1期 | 第1卷第3期 | 第1卷第2期 | 第1卷第1期 |