查看原文
其他

The Innovation | 如何炼就孙悟空的“火眼金睛​”?

L Zhang & H Fan TheInnovation创新 2023-04-01

视觉领域专注于让算法能够像人眼一样“认识”图片和视频中的目标。视觉目标跟踪领域的研究则更为细化,试图让算法在识别单张图片目标的基础上,持续且准确地在视频中跟踪目标,不但“识别”目标,还要“盯住”目标不放。这对监控安防和自动驾驶等领域十分重要,例如,跟踪算法能够在一大段监控视频里自动识别并跟踪犯人活动轨迹,迅速从海量视频中定位有效信息。


图1 图文摘要


传统的跟踪算法高度依赖手工操作,人们对特定种类的目标单独设计专属“特征”,算法则根据这些手工设计的特征在视频和图片中寻找目标。显然,此类做法在目标外形变化较大时,需要重新设计对应的特征,不能很好地适应复杂应用场景。近年来,随着深度学习的兴起,使用深度神经网络来抽取目标的深度特征成为了主流方法。预训练过的深度神经网络能够自动抽取出具备鲁棒性的目标特征,使算法能够更好地处理多变的场景,避免频繁手动设计新特征。

为减少计算量,优化跟踪效率,当前主流的跟踪范式为在起始帧抽取目标特征,之后比较起始帧与后续每一帧中的目标特征,达到跟踪效果。此范式下,深度神经网络在训练完成后可直接使用,无需在应用过程中实时迭代,在推理速度和跟踪精度之间取得了不错的平衡。

视觉跟踪算法的发展日新月异,但该领域仍存在不少亟待解决的问题,这些问题可大致归纳为两种:鲁棒性问题效率问题。尽管基于深度神经网络的方法已大大提升了算法的鲁棒性,对实际应用而言,当前算法仍然难以适应复杂场景。例如,当目标被短暂地遮挡或离开视野后,算法往往难以将再次出现的它们识别为同一目标;模糊与相似物体的干扰也会使算法出现跟丢的情况。此外,手机、无人机或各种边缘设备由于无法搭载足够强大的CPU和GPU,使得算法在这些设备上的运行效率不尽如人意,难以达到实时性和准确率的平衡。

未来的视觉跟踪领域应用前景广阔,算法的实用性也在逐步增强,今后的发展方向将聚焦在以下四个方面。首先是无监督学习的应用。以往的监督学习需要大量人工标注的数据进行训练,随着模型性能提升和复杂度增加,提升效果所需的数据量愈发庞大,逐渐超出人力能及的范围,因此无需人工标注数据的无监督学习方法可能成为新的突破口。二是大规模、更有效的模型预训练。当前预训练模型的数据主要来自图像分类数据集,并不完全适用于跟踪任务,一个专门为跟踪任务设计的预训练模型可能会拥有更好的表现。三是对干扰信息的进一步挖掘与利用。以往的算法会将与目标相似的背景当作干扰而忽视,更好地区分并排除干扰,也许恰恰需要对干扰目标也进行一定程度的关注和跟踪。最后是通过知识蒸馏以达到精简模型、提升效率的目的。更加精简的模型将具有更快的速度和更低的硬件要求,对落地部署与应用具有重要意义。


总结与展望

近年来视觉跟踪的应用场景不断拓展,在安防、自动驾驶等领域取得了诸多落地成果。随着硬件算力的进步和可获得的数据量爆炸式增长,我们将需要探索更多、更复杂的设计与实现思路,使算法的性能与效果变得越来越优秀,从而解锁更多样的应用场景,赋予AI一双智慧且明亮的眼睛。




责任编辑


肖 菲    中国海洋大学

杨 莹    中国科学院北京基因组研究所




扫二维码|查看原文


原文链接:https://www.cell.com/the-innovation/fulltext/S2666-6758(23)00030-9

本文内容来自Cell Press合作期刊The Innovation第四卷第二期以Commentary发表的“Visual object tracking: Progress, challenge, and future” (投稿: 2023-01-10;接收: 2023-02-16;在线刊出: 2023-02-20)。


DOI: https://doi.org/10.1016/j.xinn.2023.100402


引用格式:Zhang L. and Fan H. (2023). Visual object tracking: Progress, challenge, and future. The Innovation. 4(2),100402.



作者简介

张立波,博士,中国科学院软件研究所副研究员。长期从事智能基础理论、计算机视觉相关研究工作,在CVPR、ICCV、ECCV和IJCV、IEEE TIP等高水平国际会议和期刊上发表论文40余篇,获得视频语义分析竞赛LOVEU-GEBD的CVPR 2022年冠军和CVPR 2021年亚军,出版《图灵宇宙:原初纪元——计算机科学发展简史》,入选中国计算机学会2022年度推荐书目。中科院信息技术与人工智能专业委员会专家,中国电子学会软件定义推进委员会委员,获得2022年中国人工智能学会Mindspore学术奖励。




往期推荐

_

视觉意识:“眼睛”到“心灵”的升华


► 点击阅读

_

智能无人集群威胁将至,如何防御和对抗?

► 点击阅读

_

SparkLink:超低时延和超高可靠的无线短距离通信技术

► 点击阅读

_

AI视角下的元宇宙之路


► 点击阅读

_

织物计算:无处不在的织物所驱动的计算新范式

► 点击阅读

_

模数融合的全新训练模式:物理神经网络的构建

► 点击阅读

_

新一代智能避障:仿生视觉模拟助力安全驾驶

► 点击阅读



期刊简介



扫二维码 | 关注期刊官微


The Innovation是一本由青年科学家与Cell Press于2020年共同创办的综合性英文学术期刊:向科学界展示鼓舞人心的跨学科发现,鼓励研究人员专注于科学的本质和自由探索的初心。作者来自全球50个国家;已被116个国家作者引用;每期1/4-1/3通讯作者来自海外。目前有195位编委会成员,来自21个国家;50%编委来自海外;包含1位诺贝尔奖获得者,33位各国院士;领域覆盖全部自然科学。The Innovation已被DOAJ,ADS,Scopus,PubMed,ESCI,INSPEC,EI等数据库收录。秉承“好文章,多宣传”理念,The Innovation在海内外各平台推广作者文章。


期刊官网1(Owner):

www.the-innovation.org

期刊官网2(Publisher):

www.cell.com/the-innovation/home

期刊投稿(Submission):

www.editorialmanager.com/the-innovation

商务合作(Marketing):

marketing@the-innovation.org



Logo|期刊标识

See the unseen & change the unchanged

创新是一扇门,我们探索未知;  

创新是一道光,我们脑洞大开;  

创新是一本书,我们期待惊喜;  

创新是一个“1”,我们一路同行。



第4卷第1期

第3卷第6期

第3卷第5期

第3卷第4期

第3卷第3期

第3卷第2期

第3卷第1期

第2卷第4期

第2卷第3期

第2卷第2期

第2卷第1期

第1卷第3期

第1卷第2期

第1卷第1期



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存