RA-L 2023 | 学会寻找从未听过的声源

Original PKU Hyperplane 北京大学前沿计算研究中心

2024-09-16

关键词：视觉导航、表征学习、强化学习

导读

本文是 IEEE Robotics and Automation Letters (RA-L) 接收论文 Learning Semantic-Agnostic and Spatial-Aware Representation for Generalizable Visual-Audio Navigation 的解读。该论文是由北京大学董豪课题组、王亦洲课题组等单位合作完成。

文章提出了用于学习语义无知（Semantic-agnostic）且空间相关（Spatial-aware）特征的即插即用方法，该方法可以提升现有的视觉声音导航（Visual-audio Navigation）算法在寻找从未听过的声源上的性能。

论文地址：

https://arxiv.org/abs/2304.10773

项目主页：

https://github.com/wwwwwyyyyyxxxxx/SA2GVAN

引言

导航对于具身机器人（Embodied Agent）而言，是一个非常重要的能力。当机器人需要完成一个任务的时候，它应该先能找到任务完成的地点——比如打扫房间、响应用户招呼。目前很多的机器人导航任务中，机器人仅仅接收视觉作为输入，这限制了机器人可完成任务的范围；而且从仿生学的视角看，人类可以整合听觉和视觉的信息更好的感知环境——特别是无法看见的地方。最近 SoundSpaces^[1]的出现，让听觉在机器人导航任务中的相关研究变得更为容易，学者因此提出了视觉声音导航（Visual-audio Navigation，VAN）。

在 VAN 中，机器人需要依赖听觉信息和视觉信息，寻找声源的位置。目前的算法 AV-Nav^[1]和 AV-Wan^[2]可以很好的解决不同尺寸的房间当中听过的声源（heard sound）的导航问题，表现出不错的性能，然而这些算法在从未听过的声源上的泛化性比较差。

我们考虑到人类处理声音的方式是采用了双通道信息处理模式（duel-path model）：“what”通道处理声音的语义信息，“where”通道处理空间位置信息；并且一个尚未认识世界的婴儿也能拥有对声音空间信息的感知能力。因此我们模仿人类的对声音信息的处理方案，将声音的信息分成两类处理。对于 VAN 任务的而言，如果保持机器人和声源的相对位置以及场景结构不变，语义信息会随着声音种类的改变而改变，但是空间信息却保持不变——这意味这空间信息可以达成声音种类之间的泛化；并且空间信息理论上足够完成导航任务。因此，为了提升导航任务的泛化性，我们希望模型能学到与空间信息相关的特征，而忽略与语义信息相关的特征。

我们提出了两个即插即用的辅助任务用于让模型学习到上述特征。在第一个辅助任务当中，我们设计了一个分类器和声音编码器之间的对抗：声音编码器生成的特征向量被分类器用于鉴别声音种类，声音编码器要努力生成不被分类器正确之别种类的特征向量，而分类器则要努力正确识别种类；在第二个任务当中，我们设计了一个回归器，用于回归声音传来方向的角度信息，我们认为如果特征向量能回归出角度信息那么这个特征向量中一定存在空间位置相关的信息。

我们在 Replica 和 Matterport3D 两个场景数据集上进行了测试，我们的算法均能对原有算法（AV-Nav^[1]和AV-Wan^[2]）的泛化性能有提升。

方法

模型流水线和训练过程示意图

语义无关学习（semantic-agnostic learning）

本工作参考了域无关（domain agnostic）领域的文献^[3]并提出了语义无关学习（semantic-agnostic learning）。具体来说，学习与语义无关的表示意味着，在固定某个位置的机器人和在另一个特定位置的声源的情况下，该方法在获取具有不同语义的声音时输出相同的表示。为了实现该效果，我们设计了一个对抗训练（adversarial training）模式的辅助任务，如流水线图中的绿色模块所示。其中音频编码器（audio encoder）需要削弱其输出的音频特征（audio features）的音频语义的可识别性，而音频分类器（audio classifier）则要试图通过音频特征来识别音频的语义种类。这样的对抗性训练迫使音频编码器学习与语义无关的表示。

计算层面，我们通过使用梯度反转（gradient reverse）来实现对抗训练，对于音频分类器的参数，使用音频语义分类的交叉熵（cross-entropy）作为损失函数进行梯度下降训练：

其中为学习率。

而对音频编码器的参数，则使用除去的其他 loss （如强化学习部分的 Actor Critic Loss 等）的梯度方向和音频语义分类的损失函数的反向梯度进行梯度下降训练：

其中为权重参数，用来调节这两个 loss 之间的权重。

空间相关学习（spatial-aware learning）

语义无关学习会忽略与导航无关的声音语义信息，但不会直接帮助机器人学习和导航任务相关的表示。尽管强化学习提供奖励来帮助机器人提取与导航相关的表示，但在初始探索阶段，机器人可能会忽略环境奖励，专注于忽略来自声音的语义信息。为了解决这一问题，我们设计了第二个辅助任务：预测声音源的方位，如图中红色模块所示。这可以有效地提供额外的训练信号，来帮助机器人提取空间信息并更好地学习导航任务。

在实现中，我们不直接预测声音源的方位角，而是预测声音源的方位角的正弦和余弦。预测其正弦和余弦避免了由于角度的周期性导致的预测困难（如和表示的是同一个方位角）。我们使用均方损失（MSE，mean-square error）作为辅助损失函数来进行训练。

实验结果

实验结果表明，我们的方法在未曾听到过的声音上的泛化性和采样利用效率上均比基准线表现优异。

我们的方法在不同的、未曾听到过的声音上的导航轨迹和之前的工作的对比：

论文视频：

参考文献

[1] C. Chen, U. Jain, C. Schissler, S. V. A. Gari, Z. Al-Halah, V. K. Ithapu, P. Robinson, and K. Grauman, "Soundspaces: Audio-visual navigation in 3d environments," in ECCV. Springer, 2020, pp. 17–36.

[2] C. Chen, S. Majumder, Z. Al-Halah, R. Gao, S. K. Ramakrishnan, and K. Grauman, "Learning to set waypoints for audio-visual navigation," in ICLR, 2020.

[3] Ganin, Y., Ustinova, E., Ajakan, H., Germain, P., Larochelle, H., Laviolette, F., Marchand, M. and Lempitsky, V., 2016. Domain-adversarial training of neural networks. The journal of machine learning research, 17(1), pp.2096-2030.

图文 | 王鸿铖、王宇萱

Computer Vision and Digital Art (CVDA)

About CVDA

The Computer Vision and Digital Art (CVDA) research group was founded in 2007 within the Institute of Digital Media at Peking University led be Prof. Yizhou Wang. The group focuses on developing computational theories and models to solve challenging computer vision problems in light of biologically plausible evidences of visual perception and cognition. The primary goal of CVDA is to establish a mathematical foundation of understanding the computational aspect of the robust and efficient mechanisms of human visual perception, cognition, learning and even more. We also believe that the marriage of science and art will stimulate exciting inspirations on producing creative expressions of visual patterns.

超平面实验室

Hyperplane Lab

超平面实验室隶属北京大学前沿计算研究中心，由董豪老师代领，其研究方向主要涉及深度/机器学习和计算机视觉，及机器人和医疗健康中的应用。实验室的研究涉及深度学习和计算机视觉，目的是降低学习智能系统所需要的数据。目前的研究方向包括：

非监督场景理解：学习世界的表达
生成模型与强化学习：学习与世界交互
生成模型与计算机视觉：学习看世界

扫码浏览实验室主页

https://zsdonghao.github.io/

你可能感兴趣

本微信公众号所有内容，由北京大学前沿计算研究中心微信自身创作、收集的文字、图片和音视频资料，版权属北京大学前沿计算研究中心微信所有；从公开渠道收集、整理及授权转载的文字、图片和音视频资料，版权属原作者。本公众号内容原作者如不愿意在本号刊登内容，请及时通知本号，予以删除。

点击“阅读原文”转论文地址

继续滑动看下一个

北京大学前沿计算研究中心

向上滑动看下一个

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

当“上帝”变为“老天爷”

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

呼吁四川大学澄清：1998年1月，川大有多少个“姜涛与爱人程月玲”？

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

RA-L 2023 | 学会寻找从未听过的声源

您可能也对以下帖子感兴趣

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

当“上帝”变为“老天爷”

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

呼吁四川大学澄清：1998年1月，川大有多少个“姜涛与爱人程月玲”？

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

生成图片，分享到微信朋友圈

RA-L 2023 | 学会寻找从未听过的声源

您可能也对以下帖子感兴趣