相同关键词【强化学习】论文列表 -- 中国光学期刊网

作者单位

摘要

¹ 北京理工大学光电学院，北京 100081

² 中国科学院西安光学精密机械研究所，陕西西安 710119

The empirical findings from this study confirm the superiority of reinforcement learning in formulating effective stray light suppression measures for space gravitational wave detection telescope systems. The approach not only achieves superior suppression outcomes but also introduces an efficient, flexible, and innovative solution to the challenges of stray light in space gravitational wave detection and other high-precision optical systems.

引力波星载望远镜杂光抑制强化学习 gravitational wave spaceborne telescope stray light suppression reinforcement learning

PDF全文 Full Text

光电工程

2024, 51(2): 230210

基于改进DQN强化学习算法的弹性光网络资源分配研究

尚晓凯韩龙龙翟慧鹏

作者单位

摘要

国家计算机网络与信息安全管理中心河南分中心，郑州 450000

针对光网络资源分配中频谱资源利用率不高的问题，提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略，根据动作价值函数和状态价值函数的差异来设定损失函数，并不断调整ε值，以改变代理的探索率。通过这种方式，实现了最优的动作值函数，并较好地解决了路由与频谱分配问题。此外，采用了不同的经验池取样方法，以提高迭代训练的收敛速度。仿真结果表明：改进DQN强化学习算法不仅能够使弹性光网络训练模型快速收敛，当业务量为300 Erlang时，比DQN算法频谱资源利用率提高了10.09%，阻塞率降低了12.41%，平均访问时延减少了1.27 ms。

弹性光网络改进深度Q网络强化学习算法资源分配 elastic optical network, improved reinforcement le

PDF全文 Full Text

光通信技术

2023, 47(5): 0012

基于强化学习的多无人飞行器避碰决策方法

杨艳飞 ¹诸燕平 ²胡灿 ²张斌 ²

作者单位

摘要

¹ 常州大学计算机与人工智能学院江苏常州 213000

² 常州大学微电子与控制工程学院江苏常州 213000

随着低空空域环境的日益复杂, 执行任务的无人飞行器间发生冲突的概率不断增加。针对传统强化学习算法SAC,DDPG在解决有限空域内多无人飞行器间的避碰问题上存在收敛速度慢、收敛不稳定等缺陷, 提出了一种基于PPO2算法的多智能体强化学习(MARL)方法。首先,将多无人飞行器飞行决策问题描述为马尔可夫决策过程; 其次,设计状态空间与奖励函数, 通过最大化累计奖赏来优化策略, 使整体训练更加稳定、收敛更快; 最后,基于深度学习TensorFlow框架和强化学习Gym环境搭建飞行模拟场景, 进行仿真实验。实验结果表明,所提方法相较于基于SAC和DDPG算法的方法, 避碰成功率分别提高约37.74和49.15个百分点, 能够更好地解决多无人飞行器间的避碰问题, 在收敛速度和收敛稳定性方面更优。

无人飞行器深度强化学习(DRL) 多智能体避碰 UAV Deep Reinforcement Learning (DRL) multi-agent collision avoidance PPO2 PPO2

PDF全文 Full Text

电光与控制

2023, 30(9): 0106

学术研究

基于逆向强化学习的无人机路径规划

杨秀霞王晨蕾张毅于浩姜子劼

作者单位

摘要

海军航空大学, 山东烟台 264000

为了解决深度确定性策略梯度(DDPG)算法在规划无人机(UAV)安全避障路径时收敛速度慢、奖励函数设置困难等问题, 基于逆向强化学习提出了一种融合专家演示轨迹的UAV路径规划算法。首先, 基于模拟器软件采集专家操纵UAV避障的演示轨迹数据集; 其次, 采用混合采样机制, 在自探索数据中融合高质量专家演示轨迹数据更新网络参数, 以降低算法探索成本; 最后, 根据最大熵逆向强化学习算法求解专家经验中隐含的最优奖励函数, 解决了复杂任务中奖励函数设置困难的问题。对比实验结果表明, 改进后的算法能有效提升算法训练效率且避障性能更优。

无人机路径规划逆向强化学习深度确定性策略梯度 UAV path planning reverse reinforcement learning DDPG

PDF全文 Full Text

电光与控制

2023, 30(8): 1

光电技术及应用

5G电力虚拟专网和数字孪生相结合的系统架构和构建

吴维农 ^1,*莫婷 ¹赵妍妍 ¹谢秋洪 ¹[ ... ]唐伦 ²

作者单位

摘要

¹ 国网重庆市电力公司信息通信分公司，重庆 400014

² 重庆邮电大学通信与信息工程学院，重庆 400065

设计了一种5G电力虚拟专网和数字孪生相结合的系统架构，并考虑了终端数字孪生时同步的构建方法，提出了一种分层多智能强化学习算法。该算法决定分配给电力用户终端的资源和数字孪生体的放置，上层通过深度Q网络实现切片通信资源的分配，下层通过多智能体深度强化学习实现电力用户终端的数字孪生体放置。实验结果表明，所提出的分层多智能体算法在电力用户终端数字孪生体的同步强度上能获得较好的系统收益。

5G电力虚拟专网数字孪生深度强化学习 5G power virtual private network digital twin deep reinforcement learning

PDF全文 Full Text

半导体光电

2023, 44(5): 803

激光器与激光光学

基于深度强化学习的自由电子激光优化研究

吴嘉程 ^1,2蔡萌 ³陆宇杰 ^1,3黄楠顺 ^4,*[ ... ]赵振堂 ^1,2,3

作者单位

摘要

¹ 上海科技大学物质科学与技术学院，上海 201210

² 中国科学院上海高等研究院，上海 201210

³ 中国科学院上海应用物理研究所，上海 201800

⁴ 张江实验室，上海 201210

束流轨道优化是短波长自由电子激光调试放大过程的关键环节。在实际实验中，需要花费大量的时间来调整参数，以校正轨道。为简化该多参数调优过程，研究了基于深度强化学习的自动优化技术，在仿真环境中使用SAC、TD3和DDPG算法调整多个校正磁铁，以优化自由电子激光的输出功率。为模拟实际实验中非理想的轨道状态，在第一节波荡器入口处设置一磁铁以偏转束流轨道。随后利用深度强化学习算法自动调节后续7个磁铁以校正轨道。结果表明，通过引入偏差将输出功率降低一个数量级后，基于最大熵原理的SAC算法将功率恢复到初始值的98.7%，优于TD3与DDPG算法。此外，SAC算法表现出更强的鲁棒性，有望后续应用在我国X射线自由电子激光装置中实现自动调束。

激光光学自由电子激光轨道校正输出功率深度强化学习多参数优化

PDF全文 Full Text

光学学报

2023, 43(21): 2114002

工程应用

基于梯度熵正则化的改进型QMIX网络

卢锐彭鹏菲

作者单位

摘要

海军工程大学, 武汉 430000

针对合作多智能体系统缺乏个体奖励信号的情况下, 不同智能体贡献无法区分导致合作效率低下的问题, 利用价值分解范式引入了信用分配可区分性评价指标, 并提出一种基于梯度熵正则化的方法实现区分度较高的信用分配。在此基础上, 结合多智能体深度强化学习算法, 提出一种改进型QMIX网络。通过SMAC多智能体学习环境和Starcraft2自带的地图编辑器, 建立相应仿真实验环境, 结果表明新提出的改进型QMIX网络相较于QMIX网络, 学习效率和整体性能均有所提升, 更适用于部分可观测环境下的合作多智能体强化学习问题。

多智能体强化学习信用分配梯度熵 multi-agent reinforcement learning credit allocation gradient entropy

PDF全文 Full Text

电光与控制

2023, 30(4): 78

研究论文

基于深度强化学习的V2X频谱资源管理方法

武明虎金波赵楠 ^*王茹

作者单位

摘要

湖北工业大学电气与电子工程学院，武汉　430068

针对车辆对一切（V2X）通信所面临的频谱稀缺问题，文章提出了一种深度强化学习方法对V2X频谱资源进行管理。首先，建立单个车辆对基础设施链路的V2X通信模型，结合频谱子带和传输功率等约束条件，构建优化问题以最大化V2X通信网络综合效率；其次，考虑到优化问题的非凸性，将其建模为马尔可夫决策过程；接着，引入基于竞争构架Q网络（Dueling-DQN）算法，以获得最优频谱子带选择和传输功率分配策略，使V2X通信网络综合效率最大化；最后，通过Tensorflow软件平台进行实验仿真，以验证所提方法的性能。实验结果表明，Dueling-DQN算法与其他算法相比，能够获得更高的链路性能和V2X通信网络效率。

车辆对一切通信深度强化学习频谱分配传输功率分配车辆对一切通信网络综合效率 V2X communication deep reinforcement learning spectrum allocation transmission power distribution V2X communication network comprehensive efficiency

PDF全文 Full Text

光通信研究

2023, 49(3): 71

激光器件与激光物理

基于激光谐振腔的智能光子计算研究进展与挑战封底文章

下载：1908次

吴佳蔚 ^1,2王豪 ^1,2付星 ^1,2柳强 ^1,2,*

作者单位

摘要

¹ 清华大学精密仪器系，北京 100084

² 光子测控技术教育部重点实验室，北京 100084

随着人工智能技术的飞速发展与广泛应用，人们对计算资源的需求日益增长，面对电子摩尔定律所遇到的原理性瓶颈，光子以高传输速度、高并行度等优势成为研究人员心目中的下一代计算机载体之一。近年来的研究工作显示，激光谐振腔内许多有趣的物理现象和复杂的动态演化过程能够被用于各种各样的数据处理与计算任务，极大地拓展了激光器的应用范围。在这篇综述中，笔者对基于激光谐振腔的智能光子计算的研究进展进行了集中的介绍与梳理，主要内容涵盖利用激光腔内的混沌过程辅助光电强化学习、利用光反馈激光器的非线性信号变换构建光电储备池网络，以及利用激光网络向稳定振荡状态的自发演化求解组合优化问题。在介绍相关最新进展之余，笔者分析讨论了智能激光计算系统面临的挑战，并对其未来的发展趋势进行了展望。

光计算激光器人工智能光电强化学习光电储备池计算光学伊辛机

PDF全文 Full Text

中国激光

2023, 50(11): 1101002

工程应用

改进PPO算法的AUV路径规划研究

胡致远 ^1,2王征 ¹杨洋 ¹尹洋 ¹

作者单位

摘要

¹ 海军工程大学, 武汉 430000

² 中国人民解放军91867部队, 浙江义乌 322000

面对复杂的三维环境, 传统的路径规划算法计算复杂度极度增加, 失去了原有的效果。深度强化学习可以不依赖于精确的环境模型, 其总体效率远高于传统算法。针对三维环境下的AUV路径规划问题, 在建立避碰探测模型和gym仿真环境的基础上, 改进网络结构的PPO算法设计及模型训练。通过仿真实验, 验证了算法的准确率与有效性。

路径规划近端策略优化深度强化学习 AUV AUV path planning proximal policy optimization deep reinforcement learning

PDF全文 Full Text

电光与控制

2023, 30(1): 87

关于本站 Cookie 的使用提示

全站搜索

热点聚焦

学术活动

关于本站 Cookie 的使用提示

全站搜索