The Innovation | 如何炼就孙悟空的“火眼金睛”？

Original L Zhang & H Fan TheInnovation创新 2023-04-01

导

读

视觉领域专注于让算法能够像人眼一样“认识”图片和视频中的目标。视觉目标跟踪领域的研究则更为细化，试图让算法在识别单张图片目标的基础上，持续且准确地在视频中跟踪目标，不但“识别”目标，还要“盯住”目标不放。这对监控安防和自动驾驶等领域十分重要，例如，跟踪算法能够在一大段监控视频里自动识别并跟踪犯人活动轨迹，迅速从海量视频中定位有效信息。

图1 图文摘要

传统的跟踪算法高度依赖手工操作，人们对特定种类的目标单独设计专属“特征”，算法则根据这些手工设计的特征在视频和图片中寻找目标。显然，此类做法在目标外形变化较大时，需要重新设计对应的特征，不能很好地适应复杂应用场景。近年来，随着深度学习的兴起，使用深度神经网络来抽取目标的深度特征成为了主流方法。预训练过的深度神经网络能够自动抽取出具备鲁棒性的目标特征，使算法能够更好地处理多变的场景，避免频繁手动设计新特征。

为减少计算量，优化跟踪效率，当前主流的跟踪范式为在起始帧抽取目标特征，之后比较起始帧与后续每一帧中的目标特征，达到跟踪效果。此范式下，深度神经网络在训练完成后可直接使用，无需在应用过程中实时迭代，在推理速度和跟踪精度之间取得了不错的平衡。

视觉跟踪算法的发展日新月异，但该领域仍存在不少亟待解决的问题，这些问题可大致归纳为两种：鲁棒性问题和效率问题。尽管基于深度神经网络的方法已大大提升了算法的鲁棒性，对实际应用而言，当前算法仍然难以适应复杂场景。例如，当目标被短暂地遮挡或离开视野后，算法往往难以将再次出现的它们识别为同一目标；模糊与相似物体的干扰也会使算法出现跟丢的情况。此外，手机、无人机或各种边缘设备由于无法搭载足够强大的CPU和GPU，使得算法在这些设备上的运行效率不尽如人意，难以达到实时性和准确率的平衡。

未来的视觉跟踪领域应用前景广阔，算法的实用性也在逐步增强，今后的发展方向将聚焦在以下四个方面。首先是无监督学习的应用。以往的监督学习需要大量人工标注的数据进行训练，随着模型性能提升和复杂度增加，提升效果所需的数据量愈发庞大，逐渐超出人力能及的范围，因此无需人工标注数据的无监督学习方法可能成为新的突破口。二是大规模、更有效的模型预训练。当前预训练模型的数据主要来自图像分类数据集，并不完全适用于跟踪任务，一个专门为跟踪任务设计的预训练模型可能会拥有更好的表现。三是对干扰信息的进一步挖掘与利用。以往的算法会将与目标相似的背景当作干扰而忽视，更好地区分并排除干扰，也许恰恰需要对干扰目标也进行一定程度的关注和跟踪。最后是通过知识蒸馏以达到精简模型、提升效率的目的。更加精简的模型将具有更快的速度和更低的硬件要求，对落地部署与应用具有重要意义。

总结与展望

近年来视觉跟踪的应用场景不断拓展，在安防、自动驾驶等领域取得了诸多落地成果。随着硬件算力的进步和可获得的数据量爆炸式增长，我们将需要探索更多、更复杂的设计与实现思路，使算法的性能与效果变得越来越优秀，从而解锁更多样的应用场景，赋予AI一双智慧且明亮的眼睛。

责任编辑

肖菲中国海洋大学

杨莹中国科学院北京基因组研究所

扫二维码｜查看原文

原文链接：https://www.cell.com/the-innovation/fulltext/S2666-6758(23)00030-9

本文内容来自Cell Press合作期刊The Innovation第四卷第二期以Commentary发表的“Visual object tracking: Progress, challenge, and future” (投稿: 2023-01-10；接收: 2023-02-16；在线刊出: 2023-02-20)。

DOI: https://doi.org/10.1016/j.xinn.2023.100402

引用格式：Zhang L. and Fan H. (2023). Visual object tracking: Progress, challenge, and future. The Innovation. 4(2),100402.

作者简介

张立波，博士，中国科学院软件研究所副研究员。长期从事智能基础理论、计算机视觉相关研究工作，在CVPR、ICCV、ECCV和IJCV、IEEE TIP等高水平国际会议和期刊上发表论文40余篇，获得视频语义分析竞赛LOVEU-GEBD的CVPR 2022年冠军和CVPR 2021年亚军，出版《图灵宇宙：原初纪元——计算机科学发展简史》，入选中国计算机学会2022年度推荐书目。中科院信息技术与人工智能专业委员会专家，中国电子学会软件定义推进委员会委员，获得2022年中国人工智能学会Mindspore学术奖励。

往期推荐

	视觉意识：“眼睛”到“心灵”的升华
► 点击阅读

	智能无人集群威胁将至，如何防御和对抗？
► 点击阅读

	SparkLink：超低时延和超高可靠的无线短距离通信技术
► 点击阅读

	AI视角下的元宇宙之路
► 点击阅读

	织物计算：无处不在的织物所驱动的计算新范式
► 点击阅读

	模数融合的全新训练模式：物理神经网络的构建
► 点击阅读

	新一代智能避障：仿生视觉模拟助力安全驾驶
► 点击阅读

期刊简介

扫二维码｜ 关注期刊官微

The Innovation是一本由青年科学家与Cell Press于2020年共同创办的综合性英文学术期刊：向科学界展示鼓舞人心的跨学科发现，鼓励研究人员专注于科学的本质和自由探索的初心。作者来自全球50个国家；已被116个国家作者引用；每期1/4-1/3通讯作者来自海外。目前有195位编委会成员，来自21个国家；50%编委来自海外；包含1位诺贝尔奖获得者，33位各国院士；领域覆盖全部自然科学。The Innovation已被DOAJ，ADS，Scopus，PubMed，ESCI，INSPEC，EI等数据库收录。秉承“好文章，多宣传”理念，The Innovation在海内外各平台推广作者文章。

期刊官网1（Owner）：

www.the-innovation.org

期刊官网2（Publisher）：

www.cell.com/the-innovation/home

期刊投稿（Submission）：

www.editorialmanager.com/the-innovation

商务合作（Marketing）：

marketing@the-innovation.org

Logo｜期刊标识

See the unseen & change the unchanged

创新是一扇门，我们探索未知；

创新是一道光，我们脑洞大开；

创新是一本书，我们期待惊喜；

创新是一个“1”，我们一路同行。

第4卷第1期

第3卷第6期

第3卷第5期

第3卷第4期

第3卷第3期

第3卷第2期

第3卷第1期

第2卷第4期

第2卷第3期

第2卷第2期

第2卷第1期

第1卷第3期

第1卷第2期

第1卷第1期

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

The Innovation | 如何炼就孙悟空的“火眼金睛”？

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

生成图片，分享到微信朋友圈

The Innovation | 如何炼就孙悟空的“火眼金睛​”？

您可能也对以下帖子感兴趣

The Innovation | 如何炼就孙悟空的“火眼金睛”？