查看原文
其他

【源头活水】深度强化学习点云配准——ReAgent技术详解

“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。

来源:知乎—东林钟声
地址:https://zhuanlan.zhihu.com/p/375188828
公众号:强化学习技术前沿
深度强化学习(Deep RL)可以通过序列决策式的方式,在很多方面得到应用。这里我们主要介绍一篇CVPR'21使用RL做点云图像配准的文章:
ReAgent: Point Cloud Registration using Imitation and Reinforcement Learning
https://arxiv.org/abs/2103.15231

总体上而言,ReAgent是通过训练了一个Policy网络,状态是Source点云和Target点云,输出一系列动作(旋转、平移Source点云),使得Source点云最终和Target点云在相同的地方重合。
那么我们现在深入其中的细节,其实针对RL的应用文章,最需要关注的点是以下4个方面:
  • 状态(State)设计
  • 动作(Action)设计
  • 奖励(Reward)设计
  • 算法实现
一般来说RL的应用文章在算法上无非使用的是较为广泛使用的算法模型,如DQN、PPO、SAC等。

State

这里的State是将Source和Targe点云通过一个PointNet类似的结构,从高维点云信息Embedding到一个特征空间后,两者Concatenate得到State的表征信息。这里从上图中可以比较好的理解。

Action

这里Action的选择就比较直观,我们需要通过一些操作来旋转、平移Source点云。那么Action就直接设置为旋转、平移相关的动作。这篇文章在实现上,使用离散的动作集,比如x方向的平移为[0.0033,0.01,0.03,0.09,0.27],当然是有正有负。

Reward

Reward的设计就更为直观,就是在执行动作后,看是否Source和Target之间更加接近了。这里使用的是Chamfer Distance(CD)来衡量,下面给出Reward的设计:

这里的Reward也很直观,就是加入执行动作之后,是否变得更好?如果变好了就给一个正的奖励,如果变差了就给一个负的奖励。

算法实现

文章采用了PPO。
那么ReAgent的总体框架就如下图:

如果理解了这个问题中的State、Action的设计,还是相当直观的框架。同时笔者也跑通了ReAgent的代码,实际看下其效果如何,主要是观察其序列动作过程:

可以看到ReAgent的动作还是相当“丝滑“”且准确的。也希望更多的读者能够探索RL的各种应用,做到像人一样“丝滑”~

本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。


“源头活水”历史文章


更多源头活水专栏文章,

请点击文章底部“阅读原文”查看



分享、在看,给个三连击呗!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存