Berkeley吴翼&FAIR田渊栋等人提出强化学习环境House3D

2018-01-15 德先生

本文转载自“机器之心（almosthuman2014）”，如需转载请联系原作者作者：吴翼、吴育昕、Georgia Gkioxari、田渊栋机器之心编译

构建虚拟3D环境对于强化学习研究非常重要。近日，UC Bekerley博士生吴翼、FAIR研究工程师吴育昕、博士后Georgia Gkioxari和研究科学家田渊栋共同提交了一篇论文，提出一种基于SUNCG数据集构建的丰富、可扩展的高效环境House3D。研究者用连续和离散动作空间训练强化学习智能体，改善了它们在新环境中的泛化能力。该论文目前已提交至ICLR 2018大会。

项目链接：https://github.com/facebookresearch/House3D

近期，深度强化学习已在多种游戏上显示了自己的能力，如Atari游戏（Mnih et al., 2015）和围棋（Silver et al., 2016），在其中都展示了超越人类的水平。这些巨大成就的根基在于高效明确、可进行自由学习与探索的智能体模拟环境。目前为止，很多研究人员提出的环境已经编码了人类智能的某些方面，其中包括3D感知（DeepMind Lab（Beattie et al., 2016）和Malmo（Johnson et al., 2016））、实时决策（TorchCraft（Synnaeve et al., 2016）和ELF（Tian et al., 2017））、快速反应（Atari（Bellemare et al., 2013））、长期计划（围棋、国际象棋）、语言和交流（ParlAI（Miller et al., 2017）和（Das et al., 2017b））。

尽管如此，深度强化学习在这些模拟环境中的进展是否能够以及如何迁移到真实世界仍然是一个开放性问题。对于这个方向，最重要的事情就是构建模拟真实世界的环境，该环境需要具备真实世界丰富的结构、内容和动态性。为了加快学习，这些环境应该实时响应，并提供大量多样化的复杂数据。尽管我们很需要这些特性，但它们仍然无法保证达到泛化目标。泛化是智能体在新场景中成功完成任务的能力，这对实际应用非常重要。例如在很多房子里训练的家用机器人或在很多城市中训练的自动驾驶汽车，应该能够轻松部署到与训练场景完全不同的新房子或新城市。

尽管人们往往认为泛化与学习有关，但是毫无疑问泛化与训练智能体的环境的多样性有关。为了促进泛化，环境需要提供大量数据，允许智能体测试其在新条件下识别和动作的能力。要验证智能体是否开发出智能技巧，而不是仅凭记忆（过拟合），具备无偏、无限制本质的新型生成环境是必要的。注意：泛化和大型数据集之间的结合带来了图像识别和目标识别领域的近期进展（Russakovsky et al., 2015; He et al., 2015）。

与泛化被正式定义和充分研究的监督学习相反，强化学习中的泛化可以用多种方式来理解。DeepMind实验室（Beattie et al., 2016; Higgins et al., 2017）通过像素级颜色或纹理变化和迷宫布局引入环境多样性。Tobin et al. (2017) 通过引入随机噪声改变物体颜色，来探索像素级的泛化。Finn et al. (2017b) 研究在奖励仅提供给任务的部分子集时，智能体在类似任务配置环境中的泛化能力。Pathak et al. (2017) 测试智能体在同样游戏更困难级别的泛化能力。

但是，环境中的像素级变化（如物体的颜色和纹理）或难度级别变化在智能体那里却经常得出非常近似的视觉观察结果。在真实世界中，人类感知和理解复杂的视觉信号。例如，一个人到了朋友家，即使装饰和设计都是新的，他也能轻松识别出哪是厨房。而智能体要想在真实世界中成功，需要理解新的结构布局和多样的物体外表。智能体需要能够将语义与新场景联系起来，在视觉变化场景中实现泛化。这篇论文研究了语义级别的泛化，其中的训练环境和测试环境在视觉上不相同，但共享同样的高级别概念属性。具体来说，研究者提出一个包括数千个室内场景（具备不同的场景类型、布局和物体）的虚拟3D环境 House3D，见图1a。House3D利用SUNCG数据集 (Song et al., 2017)，该数据集包含4.5万个人类设计的真实世界3D房子模型，其中的物体全部标注成不同类别。研究者将SUNCG数据集转换至House3D环境，这对于不同任务都是有效且可扩展的。在House3D中，智能体可自由探索空间，感知大量不同视觉外表的物体。

House3D展示了智能体确实能够在新基准任务RoomNav中学习高级别概念，并泛化至未见的新场景中。在RoomNav中，智能体开始位于房子的随机位置，并被要求去往高级语义概念指定的目的地（如厨房）。RoomNav示例见图1b。研究者从House3D中手动选取了270个房子，并将其分割成两个训练集（20个房子和200个房子）和一个用于评估的留出集（50个房子）。这些房子足够大，且适合导航任务。研究者展示了使用用标准深度强化学习方法（如A3C和DDPG）训练的gated-CNN和gated-LSTM策略，大型多样化训练集可以改善智能体在RoomNav中的泛化能力。这与小型训练集的结果相反，其中出现了显著的过拟合。此外，深度（depth）信息和语义信号（如分割）带来更好的泛化效果。前者（深度）促进即时动作，后者（分割）帮助在新环境中的语义理解。实验结果证明了为真实世界机器人构建实际视觉系统的意义，同时引出在处理复杂的真实世界任务时，分离视觉和机器人学习等方向。

图1：House3D环境和RoomNav任务概览。

（a）研究者基于SUNCG数据集构建了一个高效的交互式环境，该数据集包含4.5万个不同的室内场景，从单间到带游泳池和健身房的两层楼房。所有3D对象都被完全标注成80多个类别。环境中的智能体可获得多种模式的观察结果（如RGB图像、深度、分割掩码、自上而下的2D视角等。（b）研究者专注于基于语义的导航任务。给定一个高级任务描述，智能体自行探索环境，到达目标房间。

表1：常用环境总结。属性包括3D：渲染对象的3D本质；真实（Realistic）：与现实世界的相似度；大规模（Large-Scale）：大型环境集合；Fastspeed：快速渲染；可定制（Customizable）：可定制用于其他应用的灵活性。

图2：论文提出模型概览。下方代表用于离散动作的gated-LSTM模型，上方代表用于连续动作的gated-CNN模型。Gated Fusion模块指门控注意力（gated-attention）架构。

图3：不同模型在具备不同输入信号（RGB Only、RGB+Depth和Mask+Depth）的 Esmall（20 个房屋）上训练时的性能。每一组中，从左到右的条分别对应gated-LSTM、concat-LSTM、gated-CNN、concat-CNN和随机策略。

图4：不同模型在带有RGB+Depth和Mask+Depth输入信号的Elarge（200 个房屋）上训练时的性能。每一组中，从左到右的直方条分别对应gated-LSTM、concat-LSTM、gated-CNN、concat-CNN和随机策略。

论文：

Building Generalizable Agents with a Realistic and Rich 3D Environment

论文链接：https://arxiv.org/abs/1801.02209

摘要：要缩小机器智能与人类之间的差距，引入视觉真实、内容充实的环境至关重要。在此类环境中，你可以评估和改善实际智能系统的关键特性，即泛化。本研究构建了一种丰富、可扩展的高效环境House3D，包含45622个人工设计的3D房屋场景，从单人间到楼房应有尽有；且该环境具备一套完整标注的3D物体、材质和场景布置，基于SUNCG数据集（Song et al., 2017）。我们重心关注语义级别的泛化，使用House3D的子集研究概念驱动的导航任务RoomNav。在RoomNav中，智能体根据语义概念的指定导航至目的地。为了成功，该智能体通过开发感知来理解所处的场景，通过将场景映射到正确的语义来理解概念，通过观察底层物理规则来导航至目的地。我们用连续和离散动作空间训练强化学习智能体，展示了它们在新环境中的泛化能力。

具体来说，我们观察到（1）在大型房屋集合上进行训练的难度显著增加，但泛化能力也要好得多；（2）使用语义信号（如分割掩码）提升泛化性能；（3）语义输入信号的门网络（gated network）可以改善训练性能和泛化能力。我们希望House3D（包括对RoomNav任务的分析）能够对设计实际的智能系统有所帮助，也希望社区广泛使用该环境。

猛戳👇图片，抢先了解第一届国家智能产业峰会详细内容！

📚往期文章推荐

人工智能名人堂第49期 | 斯坦福研究院名人堂成员：Peter E. Ha

🔗张钹院士 | AI科学突破的前夜，教授们应当看到什么？

🔗北京大学张铭 | 计算机教育的科学研究和展望

🔗本应与诺贝尔奖得主并驾齐驱的中国男人，却一辈子默默无闻

🔗北大传奇天才在海外沉沦20多年，如今的他却因这件事震惊全世界！

🔗哀悼 | 两位大师同日辞世！送别共和国功臣！

🔗2017年，他们走了。2018年，也不会再回来了。

🔗这位90后成2017年度国家科技进步奖最年轻得主！

🔗丁仲礼 | 科教融合，不设“围墙”，要办世界一流大学

🔗高文院士 | 教育和科研，日日仍在行向的高处