相同关键词【深度强化学习】论文列表 -- 中国光学期刊网

作者单位

摘要

¹ 常州大学计算机与人工智能学院江苏常州 213000

² 常州大学微电子与控制工程学院江苏常州 213000

随着低空空域环境的日益复杂, 执行任务的无人飞行器间发生冲突的概率不断增加。针对传统强化学习算法SAC,DDPG在解决有限空域内多无人飞行器间的避碰问题上存在收敛速度慢、收敛不稳定等缺陷, 提出了一种基于PPO2算法的多智能体强化学习(MARL)方法。首先,将多无人飞行器飞行决策问题描述为马尔可夫决策过程; 其次,设计状态空间与奖励函数, 通过最大化累计奖赏来优化策略, 使整体训练更加稳定、收敛更快; 最后,基于深度学习TensorFlow框架和强化学习Gym环境搭建飞行模拟场景, 进行仿真实验。实验结果表明,所提方法相较于基于SAC和DDPG算法的方法, 避碰成功率分别提高约37.74和49.15个百分点, 能够更好地解决多无人飞行器间的避碰问题, 在收敛速度和收敛稳定性方面更优。

无人飞行器深度强化学习(DRL) 多智能体避碰 UAV Deep Reinforcement Learning (DRL) multi-agent collision avoidance PPO2 PPO2

PDF全文 Full Text

电光与控制

2023, 30(9): 0106

光电技术及应用

5G电力虚拟专网和数字孪生相结合的系统架构和构建

吴维农 ^1,*莫婷 ¹赵妍妍 ¹谢秋洪 ¹[ ... ]唐伦 ²

作者单位

摘要

¹ 国网重庆市电力公司信息通信分公司，重庆 400014

² 重庆邮电大学通信与信息工程学院，重庆 400065

设计了一种5G电力虚拟专网和数字孪生相结合的系统架构，并考虑了终端数字孪生时同步的构建方法，提出了一种分层多智能强化学习算法。该算法决定分配给电力用户终端的资源和数字孪生体的放置，上层通过深度Q网络实现切片通信资源的分配，下层通过多智能体深度强化学习实现电力用户终端的数字孪生体放置。实验结果表明，所提出的分层多智能体算法在电力用户终端数字孪生体的同步强度上能获得较好的系统收益。

5G电力虚拟专网数字孪生深度强化学习 5G power virtual private network digital twin deep reinforcement learning

PDF全文 Full Text

半导体光电

2023, 44(5): 803

激光器与激光光学

基于深度强化学习的自由电子激光优化研究

吴嘉程 ^1,2蔡萌 ³陆宇杰 ^1,3黄楠顺 ^4,*[ ... ]赵振堂 ^1,2,3

作者单位

摘要

¹ 上海科技大学物质科学与技术学院，上海 201210

² 中国科学院上海高等研究院，上海 201210

³ 中国科学院上海应用物理研究所，上海 201800

⁴ 张江实验室，上海 201210

束流轨道优化是短波长自由电子激光调试放大过程的关键环节。在实际实验中，需要花费大量的时间来调整参数，以校正轨道。为简化该多参数调优过程，研究了基于深度强化学习的自动优化技术，在仿真环境中使用SAC、TD3和DDPG算法调整多个校正磁铁，以优化自由电子激光的输出功率。为模拟实际实验中非理想的轨道状态，在第一节波荡器入口处设置一磁铁以偏转束流轨道。随后利用深度强化学习算法自动调节后续7个磁铁以校正轨道。结果表明，通过引入偏差将输出功率降低一个数量级后，基于最大熵原理的SAC算法将功率恢复到初始值的98.7%，优于TD3与DDPG算法。此外，SAC算法表现出更强的鲁棒性，有望后续应用在我国X射线自由电子激光装置中实现自动调束。

激光光学自由电子激光轨道校正输出功率深度强化学习多参数优化

PDF全文 Full Text

光学学报

2023, 43(21): 2114002

研究论文

基于深度强化学习的V2X频谱资源管理方法

武明虎金波赵楠 ^*王茹

作者单位

摘要

湖北工业大学电气与电子工程学院，武汉　430068

针对车辆对一切（V2X）通信所面临的频谱稀缺问题，文章提出了一种深度强化学习方法对V2X频谱资源进行管理。首先，建立单个车辆对基础设施链路的V2X通信模型，结合频谱子带和传输功率等约束条件，构建优化问题以最大化V2X通信网络综合效率；其次，考虑到优化问题的非凸性，将其建模为马尔可夫决策过程；接着，引入基于竞争构架Q网络（Dueling-DQN）算法，以获得最优频谱子带选择和传输功率分配策略，使V2X通信网络综合效率最大化；最后，通过Tensorflow软件平台进行实验仿真，以验证所提方法的性能。实验结果表明，Dueling-DQN算法与其他算法相比，能够获得更高的链路性能和V2X通信网络效率。

车辆对一切通信深度强化学习频谱分配传输功率分配车辆对一切通信网络综合效率 V2X communication deep reinforcement learning spectrum allocation transmission power distribution V2X communication network comprehensive efficiency

PDF全文 Full Text

光通信研究

2023, 49(3): 71

工程应用

改进PPO算法的AUV路径规划研究

胡致远 ^1,2王征 ¹杨洋 ¹尹洋 ¹

作者单位

摘要

¹ 海军工程大学, 武汉 430000

² 中国人民解放军91867部队, 浙江义乌 322000

面对复杂的三维环境, 传统的路径规划算法计算复杂度极度增加, 失去了原有的效果。深度强化学习可以不依赖于精确的环境模型, 其总体效率远高于传统算法。针对三维环境下的AUV路径规划问题, 在建立避碰探测模型和gym仿真环境的基础上, 改进网络结构的PPO算法设计及模型训练。通过仿真实验, 验证了算法的准确率与有效性。

路径规划近端策略优化深度强化学习 AUV AUV path planning proximal policy optimization deep reinforcement learning

PDF全文 Full Text

电光与控制

2023, 30(1): 87

学术研究

基于深度强化学习的无人机编队控制

赵启 ¹甄子洋 ¹龚华军 ¹胡洲 ²董艾昕 ¹

作者单位

摘要

¹ 南京航空航天大学自动化学院, 南京 211000

² 四川航天系统工程研究所, 成都 610000

针对无人机编队控制中无人机智能化程度不足、缺乏自主学习能力等问题, 基于深度强化学习中DDQN算法设计无人机编队控制器, 该控制器可同时控制速度与航向通道, 使僚机能够自学习跟踪长机并保持编队, 提高无人机智能化程度。为验证设计控制器的有效性, 通过仿真将设计的DDQN控制器与传统PID控制器进行对比。对比结果表明, 该控制器可有效形成无人机编队并满足编队要求, 对无人机编队智能化控制进行了有效探索。

无人机编队控制深度强化学习 UAV formation control deep reinforcement learning DDQN DDQN

PDF全文 Full Text

电光与控制

2022, 29(10): 29

光通信系统与网络技术

数据中心光互连网络拓扑可重构研究

杨雯 ¹郭秉礼 ^1,*杨鸿珍 ²王彦波 ²[ ... ]黄善国 ¹

作者单位

摘要

¹ 北京邮电大学电子工程学院信息光子学与光通信国家重点实验室, 北京 100867

² 国网浙江省电力有限公司信息通信分公司, 杭州 310036

针对传统数据中心电互连网络在应对业务动态流量时存在适应性差的问题, 文章提出并验证了一种可以根据网络流量波动进行网络拓扑自优化重构的机制。文章所提机制通过网络仿真系统与深度强化学习模型的迭代交互, 实现了对拓扑结构与业务流量分布关系的持续训练, 进而在实际系统中, 深度强化学习模型, 根据软件定义网络控制器实时收集的业务流量分布信息, 实现了网络拓扑的自动优化重构, 进而提升了网络性能。实验结果表明, 针对给定的流量强度, 采用深度强化学习进行训练后的模型可以一步输出优化的网络拓扑结构, 降低了平均网络延迟和丢包率。

光互联网络深度强化学习网络拓扑重构 optical interconnect network deep reinforcement learning network topology reconfiguration

PDF全文 Full Text

光通信研究

2022, 48(1): 12

算法研究

基于深度强化学习的多租户PON在线带宽资源分配算法

季晨阳 ¹毕美华 ¹周钊 ²陈天宁 ¹[ ... ]徐志威 ¹

作者单位

摘要

¹ 杭州电子科技大学通信工程学院, 杭州 310018

² 国家电网湖南省电力有限公司信息通信分公司, 长沙410007

为了解决运营商共享网络资源带来的资源分配问题, 提出了一种基于深度强化学习(DRL)的在线带宽资源分配算法。该算法将多租户无源光网络(PON)系统映射到DRL模型中, DRL代理通过与环境交互, 为各个待处理的带宽请求和当前剩余带宽做决策, 并不断更新策略参数直至模型收敛, 从而完成算法优化。搭建了仿真系统, 对该算法进行了可行性验证, 仿真结果表明所提的算法可以有效提高带宽资源利用率。

多租户网络共享带宽资源分配深度强化学习 multi-tenancy network sharing bandwidth resources allocation deep reinforcement learning

PDF全文 Full Text

光通信技术

2021, 47(9): 36

光通信系统与网络技术

电力光通信网中风险均衡路由算法研究

张庚 ¹王亚男 ¹邢祥栋 ^2,*吴红 ³[ ... ]赵永利 ²

作者单位

摘要

¹ 中国电力科学研究院有限公司, 北京 100192

² 北京邮电大学信息光子学与光通信国家重点实验室, 北京 100876

³ 国网四川省电力公司, 成都 610041

在大力发展智能电网的背景下, 支撑电网运转的电力光通信网规模日趋庞大, 其承载的业务更加多样化。然而电力光通信网的业务路由规划主要以最短路径算法为主, 导致电力光通信网存在业务重要度分布不均衡, 从而导致网络局部风险过高的问题。针对上述现状, 文章采用深度强化学习技术, 以网络业务风险均衡为目标, 提出了基于强化学习的电力光通信网风险均衡路由算法。该算法考虑业务重要度分布情况、链路容量和链路光信噪比, 实现了电力光通信网风险均衡化。文章选取某省电力通信子网验证方案的有效性, 研究结果表明, 该方法能够有效地降低电力光通信网风险均衡度, 为电网的安全运行提供有力保障。

深度强化学习电力光通信网风险均衡路由规划 deep reinforcement learning power optical communication networks risk balance routing planning

PDF全文 Full Text

光通信研究

2021, 47(1): 15

关于本站 Cookie 的使用提示

全站搜索

热点聚焦

学术活动

关于本站 Cookie 的使用提示

全站搜索