【源头活水】深度强化学习点云配准——ReAgent技术详解

人工智能前沿讲习 2022-05-21

收录于合集 #源头活水 308个

“问渠那得清如许，为有源头活水来”，通过前沿领域知识的学习，从其他研究领域得到启发，对研究问题的本质有更清晰的认识和理解，是自我提高的不竭源泉。为此，我们特别精选论文阅读笔记，开辟“源头活水”专栏，帮助你广泛而深入的阅读科研文献，敬请关注。

来源：知乎—东林钟声

地址：https://zhuanlan.zhihu.com/p/375188828

公众号：强化学习技术前沿

深度强化学习（Deep RL）可以通过序列决策式的方式，在很多方面得到应用。这里我们主要介绍一篇CVPR'21使用RL做点云图像配准的文章：

ReAgent: Point Cloud Registration using Imitation and Reinforcement Learning

https://arxiv.org/abs/2103.15231

总体上而言，ReAgent是通过训练了一个Policy网络，状态是Source点云和Target点云，输出一系列动作（旋转、平移Source点云），使得Source点云最终和Target点云在相同的地方重合。

那么我们现在深入其中的细节，其实针对RL的应用文章，最需要关注的点是以下4个方面：

状态（State）设计
动作（Action）设计
奖励（Reward）设计
算法实现

一般来说RL的应用文章在算法上无非使用的是较为广泛使用的算法模型，如DQN、PPO、SAC等。

State

这里的State是将Source和Targe点云通过一个PointNet类似的结构，从高维点云信息Embedding到一个特征空间后，两者Concatenate得到State的表征信息。这里从上图中可以比较好的理解。

Action

这里Action的选择就比较直观，我们需要通过一些操作来旋转、平移Source点云。那么Action就直接设置为旋转、平移相关的动作。这篇文章在实现上，使用离散的动作集，比如x方向的平移为[0.0033,0.01,0.03,0.09,0.27]，当然是有正有负。

Reward

Reward的设计就更为直观，就是在执行动作后，看是否Source和Target之间更加接近了。这里使用的是Chamfer Distance（CD）来衡量，下面给出Reward的设计：

这里的Reward也很直观，就是加入执行动作之后，是否变得更好？如果变好了就给一个正的奖励，如果变差了就给一个负的奖励。

算法实现

文章采用了PPO。

那么ReAgent的总体框架就如下图:

如果理解了这个问题中的State、Action的设计，还是相当直观的框架。同时笔者也跑通了ReAgent的代码，实际看下其效果如何，主要是观察其序列动作过程：

可以看到ReAgent的动作还是相当“丝滑“”且准确的。也希望更多的读者能够探索RL的各种应用，做到像人一样“丝滑”~

本文目的在于学术交流，并不代表本公众号赞同其观点或对其内容真实性负责，版权归原作者所有，如有侵权请告知删除。

“源头活水”历史文章

请点击文章底部“阅读原文”查看

分享、在看，给个三连击呗！

一把短刀，怎么就让他连捅18人？！

上海超市血案：背后缘由让人揪心

为啥一线城市只有广州取消限购？是因为穷吗

当前三大问题：国家的方向感、精英的安全感、百姓的希望感

这次我怀疑邱成桐已经“学阀化”了

【源头活水】深度强化学习点云配准——ReAgent技术详解

DynamicViT: 动态Token稀疏化的高效视觉 Transformer

地表最强图神经网络竟然是transformer

ICME21 你的检测器还安全吗? RPATTACK：YOLO和Faster R-CNN的攻击利器

松弛Transformer：实现直接出框的时序动作检测

Synthesizer-其实我们还不够了解Self-Attention

预训练卷积超越预训练Transformer？

SegFormer: 简单有效的语义分割新思路

ACL2021 | 把关键词生成看成集合预测问题

将预训练BERT用于Task-Oriented对话系统

文本相似：Sentence-BERT 原理与实践

代码层面解读3D点云目标检测算法TANet

BERT Attack: 基于BERT的文本对抗技术

ConTNet：在视觉任务中同时使用Transformer和Convolution

热点讨论：MLP，RepMLP，全连接与“内卷”

CVPR2021｜如何估计代表性的原型是少样本学习的关键挑战-利用原语知识补全原型

更多源头活水专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

上海超市血案：背后缘由让人揪心

为啥一线城市只有广州取消限购？是因为穷吗

当前三大问题：国家的方向感、精英的安全感、百姓的希望感

这次我怀疑邱成桐已经“学阀化”了

生成图片，分享到微信朋友圈

【源头活水】深度强化学习点云配准——ReAgent技术详解

更多源头活水专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣