自动驾驶关键环节：行人的行为意图建模和预测(上)

查看原文

其他

自动驾驶关键环节：行人的行为意图建模和预测(上)

原创： CSDN App AI科技大本营 2019-10-30

作者 | 黄浴

出品 | AI科技大本营（ID:rgznai100）

【导读】介绍一下最近行人行为意图建模和预测的研究工作，还是分上下两部分，本文为上半部分。

Social LSTM: Human Trajectory Prediction in Crowded Spaces

比较早的是斯坦福大学 2016 年的工作。

行人遵循不同的轨迹避开障碍物并接纳其他行人。在这样的场景中任何自动驾驶汽车都应该能够预见行人的未来位置，并相应地调整行进路线避免碰撞。轨迹预测的问题可以看作是序列生成任务，感兴趣的是基于过去的位置来预测未来轨迹。这里提出了一种LSTM模型，即题目所说的，来学习人类的一般运动并预测其未来的轨迹。这是当时手工函数（例如social force模型）的传统方法不同的。

如图直观地介绍想法：预测拥挤场景中的人们动力学特性，是一项艰巨的任务，因为每个人的运动通常都受到周围的影响；这个LSTM模型称为“Social” LSTM（Social-LSTM），可考虑人类在共享环境中的常识规则和社交惯例来共同预测场景中所有人的路径；其中热图显示了它们未来轨迹的预测分布。

而下图给出Social-LSTM方法的概图。场景中的每个轨迹使用单独的LSTM网络。然后，LSTM通过社交池（S-pooling）层相互连接。与传统的LSTM不同，该池化层允许空间相邻的LSTM彼此共享信息。底行显示场景中一个人的S-池。特定半径内所有LSTM的隐态汇总在一起，在下一个时间步作为输入。

下面是一些结果示例图，以可视化方式显示场景中6个步骤中4个人预测路径的概率分布。子标题描述模型所预测的行为。在每个时间步长：行1,3中的实线表示真实未来轨迹，虚线表示直到该时间步长的观测位置，而点表示该时间步长的位置。

A Data-driven Model for Interaction-aware Pedestrian Motion

2018年2月发表的工作。

这是一种数据驱动交互觉察在拥挤的有静态障碍物环境中行人进行运动预测的方法。与人类共享工作空间的机器人需要对周围行人的运动准确预测，人体导航行为主要受周围行人及其附近的静态障碍物的影响。该方法基于LSTM神经网络模型，从示范数据中学习人类的动作行为。基于LSTM，它结合了静态障碍物和周围的行人进行轨迹预测。

作为模型的一部分，一个基于极坐标角度空间的1d网格对周围的行人进行编码。如图所示是相对行人位置（Xt）的角度行人网格（APG，Angular pedestrian grid）。APG以查询代理的位置为中心，与其前行方向对齐。每个网格单元的编码值是和角度网格单元圆锥内其他行人（other pedestrian）的最小距离。

第一个输入（状态）是查询代理在其本地笛卡尔坐标中的速度（vx，vy）；第二输入是2D占用网格，对有关查询代理附近的静态障碍物的信息进行编码；第三，围绕查询代理的其他代理信息，这些信息以特殊的混合网格进行编码。为了能够很好地捕捉其他行人的动态，需要一个高分辨率的网格。因此，作者引入角度行人网格（APG）对其他行人代理的信息进行编码。

与标准2D网格相比，APG的分辨率仅线性影响输入的维数，而仍然能够以连续分辨率而不是离散的网格单元捕获径向距离的变化。此外，周围行人角度位置变化的可观察性越精确，它们离查询代理越近。APG表示的一个缺点是，只能捕获每个角锥中最近的周围行人，至少假设是这些行人对查询代理的决策影响最大。

如图所示，在真实数据集上与行人进行交互的运动模型预测行人轨迹。左：行人的二维视图，其中显示了真实数据（虚线）和预测的轨迹（实线）。主图像：真实环境，其中预测轨迹已投影到图像帧中。右上：代理73的静态障碍物网格，用作模型的一个输入。静态障碍物显示为黑色。右下：智能体73的行人网格，这是模型的另一个输入。两个网格都与代理的位置和方向对齐，如网格中心的箭头所示。每个预测纯粹基于每个代理的这两个网格及其当前速度（v73）。

影响行人运动的主要因素是行人之间的相互作用、周围环境以及行人的目的地。了解行人之间的相互作用，可以显着提高运动模型的准确性；一些结果表明，在运动规划应用中交互-觉察的运动模型对动态代理进行运动预测，可使机器人对人类代理更具预测性，也更加“符合社会（socially compliant）”。特别是杂乱的环境，对行人对附近静态障碍物的反应建模也很重要。

当时的方法受到以下至少一个缺点的限制：（i）特征函数是手工制作的，因此只能捕获简单的交互。（ii）这些方法无法扩展到人群密集的地方，实时计算仅适用于少量代理。（iii）忽略了静态障碍，（iv）假定了解一组潜的目的地。

如图是该LSTM模型的体系结构。输入是查询代理的状态（速度）、占用网格和行人角度网格（APG），所有这些输入都以查询代理的位置为中心并与其坐标框架对齐。通过嵌入，CNN和LSTM层分别处理3个不同输入通道的每个通道。对占用网格进行预处理的CNN / FC组合通过自动编码器预训练。每个通道提取的特征连接一起，进入另一个LSTM层，FC层和输出层。模型的输出是未来预测查询代理的一系列速度值。

其实，除Social Force模型外众所周知的用于预测完整代理（holonomic agents）交互的方法还有“相互速度障碍”（RVO，Reciprocal Velocity Obstacles）方法。

最大熵逆强化学习（IRL）对交互行人进行建模的工作量很大。在混乱的环境中，包括其他代理和/或静态障碍物，人类表现出了出色的能力，可以“读取”他人的意图、感知环境并从中提取相关信息。

人们希望机器人，能够以一种符合社会要求的方式集成到环境中，以便安全地导航、不会被阻挡或干扰其他交通参与者，这样达到了类似人的水平。为了达到这种自主导航程度，机器人需要具有准确的模型来预测环境的演变，包括其他代理。做到其他代理的运动预测，可以为机器人规划安全的路径。其他代理的运动预测越准确，则机器人可预测性越高，因为可以最小化每个时间步的重新规划工作。

如图是用于网格特征提取的预训练卷积自动编码器（AE）网络的体系结构。用3个卷积层和FC层，原始占用网格（gin）在编码阶段被压缩到大小64的潜空间。解码器重构一个与输入网格完美匹配的网格（gout）。该AE网络的编码器将在完整LSTM运动和交互模型中使用。

使用时间反向传播（BPTT）训练有LSTM单元的完整网络。由于示范轨迹的长度不同，并且需要避免梯度消失/爆炸问题，因此网络截断深度固定为dtrunc。长度dtrunc的示范轨迹子序列用于训练。对于后续的子序列，用先前序列的最终状态初始化LSTM的隐状态。没有以前的子序列时，LSTM的隐状态初始化为零。因此，来自以前子序列的信息可以向前传播到下一子序列，但是优化（指BPTT）仅影响当前子序列中的样本。

如图是训练中截断时间反向传播（BPTT）的可视化。长度为lsequence的整个序列被分成长度为dtrunc的子序列。对于初始子序列，LSTM的隐状态初始化为零；对于后续子序列，其初始化为前面序列的最后一个。

下面是结果例子。用LSTM模型做交互-觉察和障碍物-觉察的行人轨迹预测。大圆圈代表行人（数字指定代理ID），小圆圈代表十个预测步骤。每个行人的当前速度由箭头指示。静态障碍物显示为黑色网格单元。这两个示例均来自未用于模型训练的测试数据。

Human Motion Prediction Under Social Grouping Constraints

2018年IROS文章。

对于移动机器人和智能车辆，准确预测生存空间的人体运动是一项重要但艰巨的任务。具有挑战性的是，人体运动受多种因素的影响，包括人的意图、存在、属性、动作、周围环境里其他代理的社会关系和社会规范，以及环境的几何和语义信息等。

这篇文章就是考虑以上因素的人类运动预测方法。它将任务表述为随机策略的MDP规划问题，并提出了加权随机游走（weighted random walk）算法，其中每个代理都受到附近其他代理social forces的局部影响。该方法将社交聚合（social grouping）信息纳入预测过程，反映群体对其成员行动施加的软构成（soft formation）约束。

该方法联合预测场景中所有代理轨迹。假定人体跟踪系统提供了观测到的代理位置短序列（称为tracklet），并且该系统还提供了将单个代理分组的组检测。这样的系统还具有检测和推理社会聚合（social grouping）假设的能力。

下面分析的是，局部交互和群体动作建模（Local Interaction and Group Motion Modeling）：social force模型描述一个人的预期动作如何根据来自他人排斥力的影响而变化；其他social force定义人群行走对人群中其他成员的吸引力（吸引力项），并对人群中类似于典型人类形态的行走构成（walking formation）施加软约束（可见性项）。

然后是，随机游走的随机策略采样（Stochastic Policy Sampling Using Random Walks）：为了采用随机策略πg进行预测，调用随机游走算法为场景中所有人采样K条联合路径；给定观察到的轨迹和可用的组信息，每条联合路径代表未来可能的交互；在随机游走期间，根据群体social force模型评估影响每个代理瞬时随机策略的代理社交互动。

下面算法1总结了预测所需的操作。假设请求K条联合随机路径，场景中N个人，进行T个预测步骤。每个人（第2行）目标采样（goal sampling）复杂性取决于目标数| G |。每个时间步（第4行）仅进行一次群中心（Group center）计算。随机动作采样过程（第6行）取决于动作空间离散化（A角度和V速度），并且具有最坏情况O（AV）复杂度。当代理近似νmax速度移动时，会发生这种情况。对于周围一定半径范围内的每个代理，在代理i的方向上计算social force（第7行）。在最坏的情况下，当所有代理都密集放置时，复杂度为O（N）。群社会力（group social force，GSF）计算（第8行）是恒定时间操作。总体复杂度为O（K（N | G | + T（N（AV + N））））。

如图是预测结果的展示。模拟场景有障碍物，还有有21人在7个群行走，开始目标放置在地图的4个角上。

• 左：人的初始位置用彩色圆圈显示，每种颜色对应一组。

• 右上方：使用GSF-MDP预测几个时间点的位置。看一下蓝色群，它不失去其构成（formation），一直等待红色群和绿色群清除通道，然后让位于速度更快的橙色群。红色群的人们被正确预测，其维持着并排行走的姿势。

• 右下一行：使用JS-MDP基准算法的预测位置，其中群运动没有建模。绿色群执行不必要的操作，然后分散了。红色和橙色群体也是如此，在人群中失去了一些成员。

Social GAN: Socially Acceptable Trajectories with Generative Adversarial Networks

CVPR2018的论文。

在以人为中心的环境中导航，了解人类的动作行为对于自动驾驶平台（例如自动驾驶汽车和社交机器人）至关重要。这是一个具有挑战性的任务，因为人类运动本质上是多模式的：给定人们运动历史路径，有许多社会性可行的人体运动方式存在。其次，它还有两个特性：人际交往和社会认可。

该文结合序列预测和生成对抗网络（GAN）解决这个问题：一个递归的序列-到-序列模型观察运动历史并预测未来行为，使用一种池化机制来汇总人的信息。对抗性训练去对抗一个递归鉴别器，可预测社会性可行的未来，并以类型损失鼓励多样化的预测。

当时的方法存在两个局限性：1）预测时，在每个人周围定义一个局部邻域，无法高效地为场景中所有人之间的交互建模；2）倾向于学习“平均行为（average behavior）”，因为常用的损失函数使真实与预测之间的欧几里得距离最小。

如图是两个行人要互相避开的场景。有许多可能的方法可以避免碰撞。这项工作提出了一种方法，该方法在观察到相同的过去的情况下，可以在拥挤的场景中预测多种社会性可接受的输出轨迹。

如图所示是系统总览。该模型包含三个关键组件：生成器（G），池化模块和鉴别器（D）。生成器G将过去的轨迹Xi作为输入，并将行人i的历史编码为Hit。池化模块将所有Hitobs作为输入，并为每个行人输出池化向量Pi。解码器生成以Hitobs和Pi为条件的未来轨迹。鉴别器D接受Treal或Tfake作为输入，并将其分类为社会性认可的或不认可的。

进一步，下图是红色行人的池化机制（红色虚线箭头）和Social LSTM中社交池化（红色虚线网格）之间的比较。该方法计算红色行人和其他所有人之间的相对位置。这些位置与每个人的隐藏状态相关联，由MLP独立处理，然后逐元池化以计算红色行人的池化向量P1。社交池化仅考虑网格内的人员，而不对所有人员之间交互进行建模。

最后是一些结果：该模型各种预测示例。每行显示一组不同的观测轨迹；每列显示每种情况下模型的四个不同样本，这些样本演示了不同类型的社会性可接受行为。BEST是最接近真实轨迹的样本；在SLOW和FAST样本中，人们会改变速度以避免碰撞；在DIR样本中，人们改变方向以避免彼此碰撞。该模型以数据驱动的方式学习不同的回避策略，并联合预测场景中所有人的全局一致性且在社会性可接受（globally consistent and socially acceptable）的轨迹。

SoPhie: An Attentive GAN for Predicting Paths Compliant to Social and Physical Constraints

2018年9月放到arXiv上的文章。

本文提出的路径预测模型SoPhie，是一个基于生成对抗网络（GAN）的可解释框架，该框架从场景图像得到两个信息源，即场景中所有代理的历史路径和场景上下文信息。为了预测代理的未来之路，必须充分利用物理和社会信息。先前的工作未能成功地联合建模物理性和社会性交互。本文结合了社会注意力机制和物理注意力，帮助模型学习看什么并提取与路径相关的最明显图像部分。社会注意力组件汇总了不同代理的交互信息，并从周围的邻居提取了最重要的轨迹信息。SoPhie还利用GAN生成更真实的样本，并对其分布建模捕获未来路径的不确定性。如图所示，SoPhie预测在社会性和物理性似乎合理的轨迹。为此，该方法结合场景所有代理的影响以及场景上下文。

下面分析SoPhie的细节。

首先，特征提取器模块用卷积神经网络从场景中，即当前帧It的图像，提取适当的特征；用LSTM编码器对每个代理的状态Xi1：t和其他所有代理直到当前帧的状态X1：N \ i1：t之间索引不变在时域相关的的特征进行编码；然后，注意力模块突出显示下一个模块输入特征的最重要信息。

注意模块由两个注意机制组成，分别称为社交和物理注意组件。物理注意力从训练数据中了解场景中的空间（物理）约束，并专注于每个代理在物理上可行的未来路径。同样，社会注意模块学习代理人之间的交互以及他们对每个代理人未来路径的影响。

最后，基于LSTM的GAN模块采用注意力模块中突出显示的特征，为每个代理生成了一系列合理可行的未来路径。更详细地，LSTM解码器预测每个代理将来时间相关的状态，即Yˆi1：T。与GAN相似，鉴别器强制生成更多逼真样本（轨迹）改善生成器模型的性能。

SoPhie体系结构概述如图所示。Sophie由三个关键模块组成：（a）特征提取器模块，（b）注意模块，（c）基于LSTM的GAN模块。

最后是一些结果图：SoPhie的物理和社会注意力正确预测并修复Social GAN错误的三个示例场景。在所有图将过去和预测的轨迹分别绘制为线和分布。其中以白色突出显示物理注意力机制的权重图。代理的白框显示代理相当于蓝色代理的社会关注。边框大小相对于不同代理的注意权重。

Social Attention: Modeling Attention in Human Crowds

2018年ICRA论文。

穿越人群需要规划安全、高效和可预测的轨迹。这个任务极具挑战性，因为它需要机器人预测人群中每个人隐含相互协作以避免碰撞的未来轨迹。之前，轨迹预测将人-人交互建模为接近度（proximity）函数。但是，这不一定是正确的，因为附近朝同一方向移动的一些人可能没有远处那么重要，但是将来可能会发生冲突。该文指出，“社交注意力（Social Attention）”是一种轨迹预测模型，可以捕捉每个人在人群中行走的相对重要性，无论他们是否接近。

该方法使用前馈、完全可微、联合训练的RNN混合模型对人群中所有人的时空轨迹进行建模。人群中所有人的软注意力模型可以对人-人交互建模，从而不需要用局部邻域假设来限制这个方法。Social Attention模型的直观解释如图所示。

行人根据周围其他人的运动调整自己的轨迹。假定这种影响是空间局部的，即只有空间邻居会影响人群中行人的运动。但这并不一定是正确的，速度、加速度和航向等也起着重要作用，不在空间上局部的代理也能够影响行人的运动。本文是通过学习代理的注意力模型来模拟人群中所有代理的影响。

在人群中行走时，人会注意哪些周围的代理？假设模型学习的轨迹表示比空间局部代理能够更有效地推断周围代理的重要性。为了模拟人-人交互，不需独立预测每个人的未来位置；相反，在多个人之间联合推理并耦合彼此预测以捕获之间的交互。

作者的工作将人类轨迹预测问题表达为时-空图（spatio-temporal graph），记作S-T图，这个最早在Structural RNN（S-RNN）提出。S-T图的节点表示人，空间边缘在相同的时间步长连接两个不同的人，而时间边缘在相邻的时间步长连接同一个人。空间边缘旨在捕获两个人之间相对方位和距离的动态性，而时间边缘则捕获人自身轨迹的动态性。

S-T图的因子图（factor graph）将每个节点的因子函数与图中每个边的成对因子函数关联。在每个时间步长，S-T图的因子会观测节点/边缘特征，并对这些特征执行计算。因素的每一个都有要学习的参数。在定义中，所有节点共享相同的因子，为模型提供可伸缩性，在不增加参数量的情况下处理更多节点（密集人群）。所有空间边缘共享一个公共因子，所有时间边缘共享相同的因子。这种参数共享对于人数不同的场景之间泛化是必需的，同时也保持参数化的紧凑性。

如图是示例S-T图，即展开两个时间步的S-T图以及相应的因子图（F-图）。

因子图表示法很自然地适合于S-RNN体系结构。其用RNN表示每个因子：每个节点因子的nodeRNNs和每个边缘因子的edgeRNNs。注意，所有的nodeRNN，空间edgeRNN和时间edgeRNN彼此共享参数。空间edgeRNNs模拟人群中人与人交互的动态性，而时间edgeRNNs模拟人群中每个人的个体动态性。nodeRNN用节点特征和相邻edgeRNN的隐态来预测下一时间该节点的未来位置。由于所有节点和边缘之间共享模型参数，因此参数量与任何给定时间的行人数无关。

如图分别是EdgeRNN（左）、Attention模块（中）和NodeRNN（右）的体系结构。

最后看一下结果，如图是社会注意力（Social Attention）模型的预测注意权重。在所有情节中，行人的注意力权重被预测是红色轨迹。其余轨迹是人群中的其他行人。实心点表示行人在前一个时间步的位置，蓝色菱形标记他们当前的位置。周围行人当前位置的圆圈代表注意力，其半径与注意力权重成正比。

Learning to Predict Pedestrian Intention via Variational Tracking Networks

2018年11月arXiv发表论文。

这是一种基于深度学习的系统，用于短期预测车辆前方的行人行为。为此，基于变分递归神经网络（VRNN）的变型模型，开发用于特定目标跟踪和短期路径预测的框架，该框架包含与动态的状态空间模型相对应的潜变量。

对于离散意图预测任务（即，预测行人是否正在停车或过马路），该系统学习到的低级视觉特征具备高信息，并且在Daimler benchmark测试中表现出色，尽管训练数据集比通常训练深度学习模型的数据集要小得多。这是一种不用外部训练行人姿势估计的系统方法。

注意，xt表示时间t的检测图像，vt表示适当时移（time shifted）的二进制意图预测标签。这样，下图是该方法的总数据流程图：通过一组图像和噪声图像中的目标检测，变分递归神经网络学习如何跟踪行人。目标追踪产生的特征对于意图预测很有用，并且一个单独RNN模型估计二进制意图标签。

如果推理网络获得xt的真实值，则可以直接复制xt，无需从图像中学习任何内容。在每次训练更新，在固定的训练数据窗口进行系统部署，然后将所有跟踪损失汇总在一起。如图就是放大的跟踪控制器模块视图：关键的特色是变分递归神经网络（VRNN），用神经网络估计潜状态的均值和方差；保留意图预测的估计值，以便今后进行性能评估。值得注意的是，GRU单元不接收xt。

最后还是一些结果展示（和当前方法的比较）。

Location-Velocity Attention for Pedestrian Trajectory Prediction

2019年WACV的论文。

现有大多数基于LSTM的预测方法都需要丰富的上下文，例如标记为静态的障碍物、标记为进入/退出区域以及甚至是背景的场景。此外，将上下文信息合并到轨迹预测中会加大计算开销，并会减少不同场景预测模型的泛化。

本文提出的是基于联合位置-速度注意（LVA，Location-Velocity Attention）LSTM的方法预测轨迹。具体而言，设计一个模块来调整LSTM网络，并训练了注意机制学习在预测过程中最佳地组合行人的位置和速度信息。

如图所示，作者提出的是一个联合位置-速度注意预测网络，其中两个输入流：位置信息和速度信息，而联合注意机制用于在预测过程中链接信息流。

关于行人轨迹预测的研究始于90年代，其中“social force”模型是先驱论文之一。当前行人轨迹预测方法在预测过程中严重依赖丰富的上下文信息。而这种方法不需要描述邻域的池化层或模块，它用一个模块在预测过程中加入位置和速度信息之间的关系。与场景相关的上下文不同，它可以从轨迹数据获得位置和速度信息，对不同的预测长度和场景具有泛化能力。

如图就是LVA网络。两个LSTM层分别用于位置和速度信息。在预测阶段，一个调整模块（tweak module）组合位置层和速度层的输出。

调整模块的详细信息见下图，它分为三层：注意层，softmax层和调整层。

通常，不管人们所处的场景是什么，具有步行速度和避撞习惯（例如，加速、停止、左转或右转）是相似的。研究人员喜欢将速度纳入预测框架，以加强预测模型的泛化。由于每个速度项（ut，vt）记录了瞬时的步行方向和步幅，与地面上的绝对位置无关，该模型就直接学习行人与位置无关的运动方式。另一方面，模型从位置坐标（xt，yt）学习场景相关的特征，如场景的步行和非步行区域的布局。在LVA网络，有位置LSTM层和速度LSTM层并行处理观测轨迹的位置和速度信息。

尽管以前LSTM模型已经使用注意机制，但是该模型的注意机制在两个方面有所不同：1）与序列编码器-解码器体系结构不同，针对每个输入序列该序列是特定时间步长，在预测的每个时间步该注意机制学习权重；2）这种注意机制不像其他一些轨迹预测方法那样用感兴趣人(POI，person of interest)周围的邻域信息。在计算复杂度方面，这种注意机制要简单得多。

实验中，公开可用的中央车站数据集（Central Station Dataset）包含大量行人轨迹数据，其中包含10,000多个轨迹，这些轨迹从33分钟长的监视视频中提取。轨迹预测基准（Trajectory Forecasting Benchmark，也称为TrajNet）是基于轨迹的大规模活动基准，提供用于测试方法的统一评估系统。它包含各种基于轨迹的活动预测数据集，例如BIWI，UCY，MOT和Stanford Drone Dataset（SDD）。TrajNet基准，测试在不受限制的环境中静态和动态摄像机拍摄的多个视频序列。城镇中心数据集（Town Centre dataset）包含现实世界拥挤场景的数百条人类轨迹。标注提供每个行人的头部和身体的边框。

这里给出在TrajNet基准该方法的一些预测轨迹示例图。显示的图像是由TrajNet Visualizer工具生成的。可视化的目的，放大了这些结果。真实轨迹点为蓝色方块。以前的方法Social-LSTM（顶行）和本文方法LVA（底行）生成的预测轨迹点显示为粉红色圆圈。

Situation-Aware Pedestrian Trajectory Prediction with Spatio-Temporal Attention Model

也是2019年WACV的论文。

在拥挤的环境中预测行人的轨迹并非易事，因为它受场景中其他行人的运动和静态结构的影响。这种人与人、人与空间的交互导致轨迹的非线性特性。本文提出的是一个基于时空图的LSTM网络，预测拥挤环境的行人轨迹，其中考虑与场景中静态（物理目标）和动态元素（其他行人）的交互。

该方法用静态和动态元素2D位置使时-空多轨迹相关性建模得到改进。和Social LSTM相比，它可以识别紧邻的静态障碍物。

人体运动预测的重点是对人-人和人-空间的交互分别建模。一些工作主要针对人群密度低的受限环境。而人体运动预测关于包含上下文信息可分为两个主要趋势：局部上下文和全局上下文。根据区分多个目标影响，现有的工作分为两个分支：基于注意力的方法和基于统一的方法。

根据局部上下文的方法，一旦行人彼此之间的距离足够近，在很短的时间内观察到交互行为，因此对社交互动的理解有限。尽管全局上下文范围包括了社交交互，该模型本身获得空间距离随时间变化带来的速度效应，可以使模型更好地理解一对行人之间演变的交互。

如前面Social Attention模型，该方法也采用时-空（S-T）图。时-空图是一种动态结构，由于行人的运动状态和场景的变化（例如，场景中元素的增加/减少）在时间和空间上演化。时空图G =（V，ΣS，ΣT）中人群目标的表示，包括三个关键成分：节点集V∗，空间边缘集ΣS和时间边缘集ΣT，其中节点代表动态和静态元素（例如行人和静态目标），空间边缘表示两个节点之间的关系，指示它们的交互。时间边缘沿着连续的时间步长链接同一个行人节点，在S-T图随时间展开时将其连接起来。

如图所示是人群-时空图的映射关系。（a）说明两个连续的时间步有任意人数的动态结构；将静态障碍物绘制为红色矩形，用虚线圆包围，指示其相邻边界。（b）显示在时-空范围动态演化相应的S-T图表示；蓝色节点代表行人1,2,3,4,5，红色虚线节点代表障碍物o， o∈O；向下有向线表示在时间步长链接同一节点的时域边缘，无向线为连接行人节点的双向空域边缘；从障碍物节点指向行人节点的有向边缘指示了障碍物对行人的影响。

S-T图G的组件替换为相应的LSTM组件，即时间边缘LSTM、空间边缘LSTM和节点LSTM。两个节点之间的关系以它们的相对坐标为特征，其中xv2v3是节点v2和v3之间的空间距离，xv2v2是节点v的位置，该位置随时间变化。

论文提出了一种多头（Multi-Head）方法的变型，多节点注意机制（Multi-node attention mechanism）。这种机制只有一层，联合地注意时-空域的特征，在每个时间步将注意力系数存储到节点v2轨迹的单个向量。下图是行人节点v2在时间步t = 2时的多节点注意机制的流水线图。

如图所示，相邻的edgeL-STM在连接之前，用PReLU和softmax组合的嵌入函数转换状态。这种组合可确保隐态保持在[-1,1]的较小范围内，该范围在采样阶段会再次映射到[0,1]归一化的输出范围。

多头注意机制在空间和时间注意系数做平均，不会压缩其深度。因此，保持向量的深度为学习行人之间影响提供了足够的特征表示。

最后看一些可视化的实验结果，比较该方法和其他方法的性能。

（*本文为 AI科技大本营投稿文章，转载请微信联系 1092722531）

◆

精彩推荐

◆

2019 中国大数据技术大会（BDTC）再度来袭！豪华主席阵容及百位技术专家齐聚，15 场精选专题技术和行业论坛，超强干货+技术剖析+行业实践立体解读，深入解析热门技术在行业中的实践落地。

即日起，限量 5 折票开售，数量有限，扫码购买，先到先得！

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

三联，刺痛了多少中国人

戴上这手表，不止优雅，蛇年好运连连来

古琴养身：为什么弹古琴的女人会更有气质？99%的人都不知道！

炸大瓜！君子固穷豪刷阿哲，锤“姓氏哥”！VIC哥凌晨豪刷俊雅！