基于GAN和注意力机制的行人轨迹预测 下载: 1486次
1 引言
行人轨迹预测是计算机视觉领域的热点研究问题之一,在汽车的自动驾驶[1]、机器人自动导航[2-4]、城市街道规划[5]等领域得到广泛应用。行人轨迹预测模型主要分为传统数学统计模型和以数据驱动为主的神经网络模型。传统数学统计模型依赖人工设计的特征对行人的动作和交互进行建模。Helbing和Molnar[6]提出的社会力模型,将行人与目标运动项、其他行人、障碍物之间的影响因素转换为相应的引力和斥力,利用这些作用力和数学解析式构建模型来推断行人移动路径。曹宁博等[7]在此基础上添加了离散网格,提出了改进的社会力模型。Kitani等[8]使用马尔科夫方法构建模型,并利用强化学习训练模型参数,对可能的目标输出轨迹,结合最优控制理论实现轨迹输出。传统模型的局限性在于只能模拟行人的即时本能反应,不能考虑长期的依赖信息和适应复杂的移动场景[9]。
近几年以数据驱动为主的神经网络模型已被证明优于传统的数学统计模型。其中以LSTM编码-解码系列模型和基于生成对抗网络的GAN模型最具代表性。LSTM在各领域中都有广泛的应用,如语言翻译[10]、文本情感分析[11]等。考虑到行人轨迹序列具有时空序列数据的特征,LSTM模型[12]将场景中的每个行人轨迹序列单独使用LSTM网络进行编码和解码,学习每个行人的运动行为特征,解码器,根据上下文信息生成场景内行人的预测轨迹,但该模型未考虑现实场景中行人之间的交互性。Alahi等[13]在LSTM模型的基础上提出S-LSTM模型,在LSTM模型中加入社交池化层,该层基于空间距离的方式共享邻近行人的隐藏信息,获取邻近行人的交互关注度。但基于空间距离获取交互性的方式并不符合实际情况,因为距离越近,并不意味着行人的交互程度更高。GAN 网络[14]的生成对抗思想在图像领域应用广泛,例如:彭晏飞等[15]结合GAN与哈希算法的图像检索,取得了较好成绩;Gupta等[16]基于生成对抗网络思想提出了S-GAN和S-GAN-P模型,相较于LSTM编码-解码系列模型,S-GAN和S-GAN-P模型在总体时段和单个时间点的预测精度均更高。但加入最大池化层的S-GAN-P模型预测精度不及S-GAN模型(未提取行人交互信息),这可能是因为S-GAN-P模型中交互信息的获取方式与实际场景中行人对目标的关注方式不同。
本文提出一种基于S-GAN网络结构的GI-GAN模型,将编码层LSTM网络替换为BiLSTM[17],以获取具有更多细节的行人运动隐藏状态。通过引入注意力机制[18],在编码器和解码器之间添加注意力模块[19],采用双注意力模块分别计算对轨迹影响较大的行人个体运动信息和群体交互信息。相较于其他模型基于空间距离和最大池化的方式,双注意力模块根据信息依赖程度对多维数据的压缩表示,选取结构化输入数据,抓住影响轨迹的关键点信息,选择性地对行人关注点进行权重分配,减小数据处理的负担,可提取更多关键信息,更符合现实场景中行人对路径的规划方式。所设计模型在满足实时性的基础上,提高了轨迹预测精度,且能够生成多条合理轨迹。
2 GI-GAN模型原理
所提出的GI-GAN模型总体结构如
模型训练过程分为4个部分。1)行人轨迹数据本质上属于时序数据,因此可将时段τ=(1,2,…,τobs)的序列作为历史观测轨迹O=(O1,O2,…,Oi,…,ON),其中,τobs为观测时段最后一个时间点,N表示该时段场景里的行人数量,行人坐标为Oi={(
现有模型只提取N个行人在最后时间点的隐藏状态向量
3 GI-GAN模型架构
3.1 编码层
在编码层输入一段行人轨迹序列,计算各时间点编码后的隐藏状态向量。由于序列中每个元素都是一对坐标,本实验在轨迹序列进入BiLSTM网络前,已对序列进行预处理。把观测时段行人i的轨迹序列(
式中:fFC1为嵌入层;WFC1为fFC1的网络参数;Wencoder为编码函数BiLSTM的网络参数,输出
3.2 解码层
在解码层运行前,需要对LSTM网络进行初始化。由于序列连贯性,神经单元使用上一时间点输出的隐藏状态向量作为初始隐藏状态。
式中:fMLP1和fMLP2为多层感知机;WMLP1与WMLP2为其网络参数;Wtanh为带tanh的连接层的网络参数。解码函数LSTM的网络参数为Wdecoder,将上一时间点(τ-1)的预测轨迹
3.3 双注意力模块
双注意力模块由个体运动模块和群体交互模块构成,分别提取行人在每个预测时间点的个体运动信息和群体交互信息。因为每个行人都有不同的运动习惯,故每个行人对于之前时间点的隐藏状态向量具有不同的关联度。仅将编码层最后时间点隐藏状态向量
个体运动模块公式为
式中:WMLP3为多层感知机fMLP3的网络参数。为了建立编码层与解码层的关联,将编码层的隐藏状态向量
群体交互模块根据上一时间点的个体运动信息和空间相对特征建立空间状态地图。计算τ时间点任意行人i的群体交互焦点,获取行人i的群体交互信息
式中:WFC2为全连接层fFC2的网络参数;Wtanh为带tanh的连接层的网络参数。首先,群体交互模块将行人i与其他行人的相对轨迹输入到全连接层,得到空间相对特征矩阵
3.4 鉴别器
鉴别器又被称为判别模型,本质上属于二分类模型,对生成器所生成的轨迹序列进行判断,判断其是否为行人真实轨迹序列。借助生成器与鉴别器的联合训练机制,可训练出一个优秀的判别模型,使得生成器生成更高精度的预测轨迹。鉴别器的编码函数为BiLSTM,网络参数为
式中:Wcut2为全连接神经网络ϕ的网络参数;WMLP4为多层感知机fMLP4的网络参数。BiLSTM网络学习轨迹序列的隐藏特征信息
3.5 损失函数
损失函数由LGAN(G,D)和LL2(G)两部分组成,LGAN(G,D)是生成器与鉴别器的对抗训练损失值,LL2(G)基于最大似然定理和概率分布的函数,表示行人i的真实轨迹序列Ti映射的空间特征向量Ri与K个预测位移的空间特征向量Gspace(z)的最小差值,目的是使生成的预测轨迹能更好地拟合真实轨迹。λ为权重,作用是平衡这两部分的损失值。通过对损失反向传播,更新模型各层的网络参数和权重。
式中:L为损失函数;G为生成器;D为鉴别器;
对抗损失采用二元交叉熵作为损失函数,用来表征模型生成轨迹分布和真实轨迹分布的差异性。假设模型训练的轨迹数据与行人真实轨迹分布一致,利用最小化二元交叉熵使得生成轨迹分布和训练轨迹分布尽可能相似。
3.6 模型训练步骤
GI-GAN模型主体由生成器和鉴别器构成,在训练的时候,两者交替进行。设定鉴别器在batch中训练一次,生成器训练一次。鉴别器的训练步骤如下:
Step 1 从batch中抽取真实轨迹序列分布,其中包含历史观测轨迹和真实轨迹。将观测轨迹输入到生成器中,得到预测轨迹序列,并将观测轨迹与预测轨迹连接为生成轨迹分布。
Step 2 将两条轨迹序列依次输入到鉴别器中,计算各轨迹序列的评分结果,根据评分判断是否为真实轨迹。
Step 3 将两条轨迹序列的评分输入到鉴别器损失函数LGAN中,计算预测轨迹序列和真实轨迹序列的数据损失,通过梯度下降的方式,更新鉴别器的网络参数。
生成器的训练步骤为:
Step 1 将观测轨迹输入到生成器,得到预测轨迹序列,把真实轨迹序列和生成轨迹序列依次输入到鉴别器中;
Step 2 计算生成器与鉴别器之间的损失LGAN与真实位移-预测位移之间的LL2(G)损失,并将两种损失按(17)式相加得到损失值VLoss;
Step 3 根据损失值VLoss,采用梯度下降的方式调整生成器的网络参数。
通过这种训练方式,生成器与鉴别器的网络参数在训练中不断优化,两者性能也不断提高,使得生成轨迹趋近于行人的真实轨迹分布。
4 实验结果与分析
4.1 实验设置
为验证模型的轨迹预测性能,选用数据集ETH[22]、UCY[4]对模型进行训练和测试。ETH数据集中的子数据集为ETH和Hotel,分别为大学外部、公共汽车站的场景;UCY数据集包含子数据集Univ、Zara 1和Zara 2,场景为大学和购物街。训练数据集和测试数据集占比分别为70%和30%,采用五折交叉验证的方式训练模型,训练每个子数据集时,将其余4个子数据集作为训练数据,选取在验证集上性能最好的模型进行测试。为了判断模型性能的优劣,将模型与Linear、LSTM、S-LSTM、S-GAN和S-GAN-P这5种具有代表性的模型进行对比分析。实验的训练和测试工作均在Windows 7平台进行,python版本为3.5,Cuda版本为8.0,模型基于pytorch 0.4深度学习框架。计算机的配置为英特尔Xeon(至强)E3-1220v5@3.00 GHz、16 GB RAM、Nvidia Tesla K20c (GK107)。
4.2 模型训练参数及过程
模型训练分为生成器训练和鉴别器训练两部分,生成器的初始学习率设置为1×10-3,鉴别器的初始学习率设置为1×10-2。模型的优化算法采用Adam[23],为了防止过拟合,采用学习率衰减中的线性衰减方式,迭代次数每隔4000次将学习率降为一半,LL2(G)的初始权重值λ为1,每次迭代选取的样本数batch_size为64,且鉴别器和生成器在每次迭代结束时反向传播一次。在训练和测试时,根据下文数据列表,取生成器的采样次数K为20。训练的迭代次数设为8000次,观测时段序列τobs长度为8,预测时段序列τpred长度为8。GI-GAN模型与S-GAN模型的生成损失、鉴别损失和位置偏移损失对比如
由
K值表示模型在训练或测试过程中生成的单个行人轨迹的数量。KV-K模型表示在训练和测试过程中,模型解码层对单个行人的预测时段进行了K次迭代,生成对应的K条预测轨迹。1V-K模型表示在训练过程中,模型解码层对单个行人的预测时段迭代1次,生成1条预测轨迹;在测试过程中对单个行人的预测时段进行了K次迭代,生成对应的K条预测轨迹。理论上K值越大,模型所能考虑的情况也更多,故预测准确度也更高。通过筛选模型生成的K条预测轨迹,选取其中预测轨迹与真实轨迹的最小误差值作为L2损失,生成器对于各层网络参数优化也更准确。K值会影响模型速率(单batch的训练和预测时间)和预测精度,K值过大,模型在序列迭代过程中耗费更多时间,模型速率下降;K值过小,模型的预测精度也会降低。因此要选定一个合理的K值作为模型的超参数。受文献[ 16]的启发,通过设置一些有代表性的K值点,查看预测损失下降趋势,得到最佳K值点。此过程无需对所有K值点进行对比,但由于数据集较大和训练迭代次数较多,模型单次训练时间成本较高。随着K值增大,模型的训练和运行速率不断降低。为了验证在最佳K值之后,随着K值的增大,预测损失下降趋势逐渐减缓,直至趋于平衡这一理论分析,将K值点设置为1、10、15、20、25、50和100,通过分析实验结果找到预测损失下降趋势最大的K值点。利用各个模型不同K值点的平均位移误差(ADE),得到各个模型在这些K值的预测损失下降趋势,从而找到使模型速率和预测精度最佳平衡的K值。
图 2. 模型训练损失对比。(a)生成损失;(b)鉴别损失;(c)位置偏移损失
Fig. 2. Comparison of model training loss. (a) Generated loss; (b) discriminant loss; (c) position offset loss
本实验对比了S-GAN模型、GI-GAN-NA模型和GI-GAN模型在不同K值时的预测精度。GI-GAN-NA模型不含双注意力模块,但其余各层结构和参数均与GI-GAN模型相同。3个模型在不同K值时的预测精度对比如
图 3. 不同K值下各模型的ADE结果。(a) S-GAN预测损失;(b) GI-GAN-NA预测损失;(c) GI-GAN预测损失
Fig. 3. ADE results of models under different K values. (a) S-GAN predicting loss; (b) GI-GAN-NA predicting loss; (c) GI-GAN predicting loss
表 1. 不同K值下3种模型的ADE结果对比
Table 1. Comparison of ADE results of three models under different K values
|
4.3 预测精度结果与分析
为了评估不同模型的预测误差,引入文献[ 16]使用的ADE和绝对位移误差(FDE)[24]指标。ADE(EADE)是指预测时段内每一个时间点的预测轨迹和真实轨迹的平均欧氏距离,FDE(EFDE)是指预测时段最后一个时间点的预测轨迹和真实轨迹的平均欧氏距离。误差值越小,表明预测轨迹和真实轨迹越接近。
在此次对比实验中,S-GAN系列模型为最新改进版本,相较于之前的模型,其预测精度有较大提升。对比实验包含线性模型Linear、LSTM系列模型、S-GAN系列模型和所提出的GI-GAN系列模型。由
5个数据集所描述的场景分别为大学外部、公共汽车站、大学和购物街,其中Zara 1和Zara 2数据集行人相对较少,多数行人轨迹呈线性,行人之间的交互较少;ETH、Univ和Hotel数据集中行人较为密集,但Hotel数据集里的行人多为线性移动,ETH和Univ数据集的行人大多为非线性移动,且行人之间存在较多交互。GI-GAN模型在ETH和Univ数据集的误差值最小,说明双注意力模块比较完整地捕获行人之间的交互信息;但在Hotel、Zara 1和Zara 2数据集的表现不及S-GAN模型和GI-GAN-NA模型,这两个模型不含群体交互模块,无法捕捉行人的交互信息,且GI-GAN-NA模型除了不含双注意力模块,其余结构和参数设置与GI-GAN模型一致。故GI-GAN模型在Hotel、Zara 1和Zara 2数据集表现不及预期的原因,与双注意力模块有关。Hotel、Zara 1和Zara 2数据集场景中行人多呈线性移动,行人之间交互较少,导致群体交互信息所占影响权重较小,由双注意力模块得到的上下文信息在解码层利用信息的权重不符合实际情况,从而导致GI-GAN模型的预测精度降低。为了验证此次分析结果,通过设置行人交互较多和交互较少的场景,对比GI-GAN模型在这两种场景的性能差异。
综合
为了分析GI-GAN模型在Hotel、Zara 1和Zara 2数据集的表现不及S-GAN模型的原因,以及各个模型在真实场景的性能表现,对不同场景下各模型的预测轨迹进行对比。真实场景中的预测轨迹对比如
表 2. 不同模型的ADE和FDE结果对比
Table 2. Comparison of ADE and FDE results of different models
|
图 4. 不同模型的预测轨迹对比。(a)~(g) GI-GAN模型轨迹预测正确图;(h)(i) GI-GAN模型轨迹预测错误图
Fig. 4. Comparison of prediction trajectories of different models. (a)-(g) Correct graphs of GI-GAN model trajectory prediction; (h)(i) error graphs of GI-GAN model trajectory prediction
根据场景中各模型的预测轨迹点与真实轨迹点的距离,可比较各模型的性能差异。
综合各个模型在这些场景的表现,线性模型的预测轨迹未能捕获行人方向上的改变,预测轨迹呈线性展开,相比其他模型,其在复杂场景的预测结果不好。由于缺少鉴别器对生成轨迹优劣的评判,LSTM系列模型的表现不及GAN系列模型,GI-GAN-NA模型整体性能与S-GAN模型相差较小。在行人交互较多的场景中,GI-GAN模型的ADE和FDE指标最优;但在行人交互信息较少的场景中,GI-GAN模型的ADE和FDE指标不及S-GAN模型和GI-GAN-NA模型。由于GI-GAN-NA模型与GI-GAN模型的区别仅是不包含双注意力模块,其他结构和参数设置一致,因此双注意力模块的上下文信息在解码层利用信息的权重不符合该场景的交互情况,导致预测精度降低。
4.4 轨迹合理性
由于行人运动具有随机偶然性,仅生成单条预测轨迹是不够的,无法全面考虑未来将会发生的情况,致使模型的预测精度受偶然因素的影响较大。汽车的自动驾驶、机器人导航、行人道路交通、智能跟踪目标等技术中都需要预测行人的未来轨迹。若仅预测一种结果,突发的偶然因素可能会致使预测失败,从而导致严重的后果。因此,在这些技术中为单个行人预测多条轨迹,具有合理性和必要性。基于GAN结构的模型可通过设置超参数K值,为单个行人生成多条预测轨迹。本实验通过对比GI-GAN模型和GI-GAN-NA模型,判断双注意力模块在生成多条预测轨迹中的作用。由于GI-GAN-NA模型预测精度优于S-GAN模型,且都未提取行人之间的交互信息,因此选取GI-GAN-NA模型进行对比实验,对比结果如
为使线条直观清晰,
鉴于GI-GAN模型能为单个行人生成多条合理预测轨迹,本研究选取几条预测轨迹数据,查看其在实际场景中所具有的合理性。
图 7. 同一场景的多条合理预测轨迹。(a)保持原速度并转向水平方向;(b)减速等待并转向水平方向;(c)直接向左方向并加速
Fig. 7. Multiple reasonably predicted trajectories of same scene. (a) Maintain the original speed and turn to the horizontal direction; (b) slow down and wait, then turn to horizontal direction; (c) direct turn to the left and accelerate
4.5 模型效率比较
为测试模型的实时性是否满足实际应用,设置周期数为200,默认迭代次数为8000次,进行效率对比实验。由于每个子数据集的数据量不同,迭代次数会有所浮动,将模型在5个子数据集的平均运行速率作为实验结果。
由实验结果可知,LSTM、S-LSTM、S-GAN、S-GAN-P、GI-GAN-NA和GI-GAN模型的预测时间分别为0.52,0.83,1.49,1.83,1.67,1.92 s。在这些模型中,LSTM模型用时最少;S-LSTM模型由于添加了交互信息模块,相较于LSTM模型耗时较长,但与S-GAN、S-GAN-P、GI-GAN-NA、GI-GAN模型相比,模型运行用时较少;S-GAN-P模型在编码器层和解码器层嵌入池化模块,在解码器初始化时进行全局最大池化,相对于S-GAN模型,耗时性会有所增加;GI-GAN-NA模型采用了双向编码网络BiLSTM,相较于采用神经网络LSTM编码的S-GAN模型,其在编码过程所耗费的时间更长;GI-GAN模型中加入了双注意力模块,在解码层的每一个预测时间点,为每个行人单独汇集空间的群体交互信息和个体运动信息,相较于S-GAN模型和GI-GAN-NA模型,GI-GAN模型整体耗时较长。通过改进GI-GAN模型的代码循环迭代结构,可降低代码的时间复杂度,将batch中的序列进行预处理保存到全局向量中,以提高模型的运行速率。由模型预测实时性对比可知,GI-GAN模型在提升精度的同时,仍然符合实际应用的要求。
5 结论
所提出的GI-GAN模型借助于GAN的对抗训练机制和双注意力模块,提取行人自身运动特征和场景中行人之间的交互信息。与其他模型相比,GI-GAN模型的ADE和FDE指标均为最优,对行人轨迹的预测精度较高。对单个行人进行多条轨迹的预测工作,具有较高的应用价值。由实验结果可知,GI-GAN模型在复杂拥挤的环境中表现优异,对各个时间点的预测轨迹更趋近真实轨迹。由于GI-GAN模型解码器中引入了每一个时间点的交互信息模块,模型也存在耗时较长的问题,且在行人交互较少的场景,GI-GAN模型的表现与预期结果有所差距。因此,在接下来的研究中,通过改进模型的双注意力模块,进一步提高模型的预测精度,并在此基础上,着力提高模型的运行速率。
[1] 茅正冲, 陈强. 基于PCA-LDA与SVM的AGV多分支路径识别与跟踪[J]. 激光与光电子学进展, 2018, 55(9): 091005.
[2] 赵立明, 叶川, 张毅, 等. 非结构化环境下机器人视觉导航的路径识别方法[J]. 光学学报, 2018, 38(8): 0815028.
[3] Kretzschmar H, Spies M, Sprunk C, et al. Socially compliant mobile robot navigation via inverse reinforcement learning[J]. The International Journal of Robotics Research, 2016, 35(11): 1289-1307.
[4] Lerner A, Chrysanthou Y, Lischinski D. Crowds by example[J]. Computer Graphics Forum, 2007, 26(3): 655-664.
[5] 周培培, 丁庆海, 罗海波, 等. 视频监控中的人群异常行为检测与定位[J]. 光学学报, 2018, 38(8): 0815007.
[6] Helbing D, Molnar P. Social force model for pedestrian dynamics[J]. Physical Review E, 1995, 51(5): 4282-4286.
[7] 曹宁博, 陈永恒, 曲昭伟, 等. 基于社会力模型的行人路径选择模型[J]. 浙江大学学报(工学版), 2018, 52(2): 352-357.
Cao N B, Chen Y S, Qu Z W, et al. Pedestrian path selection model based on social force model[J]. Journal of Zhejiang University (Engineering Edition), 2018, 52(2): 352-357.
[8] Kitani KM, Ziebart BD, Bagnell JA, et al. Activity forecasting[C]∥Proceedings of the 12th European Conference on Computer Vision, Florence, Italy. Berlin: Springer, 2012: 201- 214.
[9] 薛铸鑫. 视频数据驱动的智能人群仿真方法研究[D]. 北京:中国科学院大学, 2018: 34- 64.
Xue ZX. Video data-driven intelligent population simulation method[D]. Beijing: University of Chinese Academy of Sciences, 2018: 34- 64.
[10] BahdanauD, ChoK, BengioY. Neural machine translation by jointly learning to align and translate[EB/OL]. [2019-10-08].https:∥arxiv.org/abs/1409. 0473.
[11] YaoY, HuangZ. Bi-directional LSTM recurrent neural network for Chinese word segmentation[C]∥23rd International Conference on Neural Information Processing, October 16-21, 2016, Kyoto, Japan. Berlin: Springer, 2016: 345- 353.
[12] XuK, QinZ, WangG, et al. Collision-free LSTM for human trajectory prediction[C]. Proceeding of International Conference on Multimedia Modeling, 2018: 106- 116.
[13] AlahiA, GoelK, RamanathanV, et al. Social LSTM: human trajectory prediction in crowded spaces[C]∥Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition, June 27-30, 2016, Washington, DC. New York: IEEE, 2016: 961- 971.
[14] Goodfellow I. Pouget-abadie J, Mirza M, et al. Generative adversarial networks[J]. Advances in Neural Information Processing Systems, 2014, 3: 2672-2680.
[15] 彭晏飞, 武宏, 訾玲玲. 基于哈希算法及生成对抗网络的图像检索[J]. 激光与光电子学进展, 2018, 55(10): 101002.
[16] GuptaA, JohnsonJ, Li FF, et al. Social GAN: Socially Acceptable Trajectories with Generative Adversarial Networks[C]∥Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition, June 18-22, 2018, Salt Lake. New York: IEEE, 2018: 2255- 2264.
[17] XueH, HuynhD, ReynoldsM. Bi-prediction: pedestrian trajectory prediction based on bidirectional LSTM classification[C]∥2017 International Conference on Digital Image Computing: Techniques and Applications (DICTA), November 29-December 1, 2017, Sydney, NSW, Australia. New York: IEEE, 2017: 1- 8.
[18] BartoliF, LisantiG, BallanL, et al. Context-aware trajectory prediction[EB/OL]. [2019-10-08].https:∥arxiv.org/abs/1705. 02503.
[19] 孙亚圣, 姜奇, 胡洁, 等. 基于注意力机制的行人轨迹预测生成模型[J]. 计算机应用, 2019, 39(3): 668-674.
Sun Y S, Jiang Q, Hu J, et al. Pedestrian trajectory prediction generation model based on attention mechanism[J]. Computer Applications, 2019, 39(3): 668-674.
[20] 沈兰奔, 武志昊, 纪宇泽, 等. 结合注意力机制与双向LSTM的中文事件检测方法[J]. 中文信息学报, 2019, 33(9): 79-87.
Shen L B, Wu Z H, Ji Y Z, et al. Chinese event detection based on attention mechanism and bidirectional LSTM[J]. Chinese Journal of Information Science, 2019, 33(9): 79-87.
[21] Yonetani R, Kitani K, Sato Y. Ego-surfing: person localization in first-person videos using ego-motion signatures[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(11): 2749-2761.
[22] PellegriniS, Ess A, van Gool L. Improving data association by joint modeling of pedestrian trajectories and groupings[C]∥Proceedings of the 2010 European Conference on Computer Vision, September 5-11, 2010, Heraklion, Crete, Greece. Berlin: Springer, 2010: 452- 465.
[23] Kingma DP, BaJ. Adam: a method for stochastic optimization[EB/OL]. [2019-10-08].https:∥arxiv.org/abs/1412. 6980.
[24] MehranR, OyamaA, ShahM. Abnormal crowd behavior detection using social force model[C]∥Proceeding of 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2009), June 20-25, 2009, Miami, Florida, USA. New York: IEEE, 2009: 935- 942.
Article Outline
欧阳俊, 史庆伟, 王馨心, 王亮. 基于GAN和注意力机制的行人轨迹预测[J]. 激光与光电子学进展, 2020, 57(14): 141016. Jun Ouyang, Qingwei Shi, Xinxin Wang, Liang Wang. Pedestrian Trajectory Prediction Based on GAN and Attention Mechanism[J]. Laser & Optoelectronics Progress, 2020, 57(14): 141016.