作者单位
摘要
1 北京理工大学光电学院,北京 100081
2 中国科学院西安光学精密机械研究所,陕西 西安 710119
The empirical findings from this study confirm the superiority of reinforcement learning in formulating effective stray light suppression measures for space gravitational wave detection telescope systems. The approach not only achieves superior suppression outcomes but also introduces an efficient, flexible, and innovative solution to the challenges of stray light in space gravitational wave detection and other high-precision optical systems.
引力波 星载望远镜 杂光抑制 强化学习 gravitational wave spaceborne telescope stray light suppression reinforcement learning 
光电工程
2024, 51(2): 230210
作者单位
摘要
国家计算机网络与信息安全管理中心河南分中心,郑州 450000
针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现了最优的动作值函数,并较好地解决了路由与频谱分配问题。此外,采用了不同的经验池取样方法,以提高迭代训练的收敛速度。仿真结果表明:改进DQN强化学习算法不仅能够使弹性光网络训练模型快速收敛,当业务量为300 Erlang时,比DQN算法频谱资源利用率提高了10.09%,阻塞率降低了12.41%,平均访问时延减少了1.27 ms。
弹性光网络 改进深度Q网络强化学习算法 资源分配 elastic optical network, improved reinforcement le 
光通信技术
2023, 47(5): 0012
作者单位
摘要
1 常州大学计算机与人工智能学院江苏 常州 213000
2 常州大学微电子与控制工程学院江苏 常州 213000
随着低空空域环境的日益复杂, 执行任务的无人飞行器间发生冲突的概率不断增加。针对传统强化学习算法SAC,DDPG在解决有限空域内多无人飞行器间的避碰问题上存在收敛速度慢、收敛不稳定等缺陷, 提出了一种基于PPO2算法的多智能体强化学习(MARL)方法。首先,将多无人飞行器飞行决策问题描述为马尔可夫决策过程; 其次,设计状态空间与奖励函数, 通过最大化累计奖赏来优化策略, 使整体训练更加稳定、收敛更快; 最后,基于深度学习TensorFlow框架和强化学习Gym环境搭建飞行模拟场景, 进行仿真实验。实验结果表明,所提方法相较于基于SAC和DDPG算法的方法, 避碰成功率分别提高约37.74和49.15个百分点, 能够更好地解决多无人飞行器间的避碰问题, 在收敛速度和收敛稳定性方面更优。
无人飞行器 深度强化学习(DRL) 多智能体 避碰 UAV Deep Reinforcement Learning (DRL) multi-agent collision avoidance PPO2 PPO2 
电光与控制
2023, 30(9): 0106
作者单位
摘要
海军航空大学, 山东 烟台 264000
为了解决深度确定性策略梯度(DDPG)算法在规划无人机(UAV)安全避障路径时收敛速度慢、奖励函数设置困难等问题, 基于逆向强化学习提出了一种融合专家演示轨迹的UAV路径规划算法。首先, 基于模拟器软件采集专家操纵UAV避障的演示轨迹数据集; 其次, 采用混合采样机制, 在自探索数据中融合高质量专家演示轨迹数据更新网络参数, 以降低算法探索成本; 最后, 根据最大熵逆向强化学习算法求解专家经验中隐含的最优奖励函数, 解决了复杂任务中奖励函数设置困难的问题。对比实验结果表明, 改进后的算法能有效提升算法训练效率且避障性能更优。
无人机 路径规划 逆向强化学习 深度确定性策略梯度 UAV path planning reverse reinforcement learning DDPG 
电光与控制
2023, 30(8): 1
作者单位
摘要
1 国网重庆市电力公司 信息通信分公司, 重庆 400014
2 重庆邮电大学 通信与信息工程学院, 重庆 400065
设计了一种5G电力虚拟专网和数字孪生相结合的系统架构,并考虑了终端数字孪生时同步的构建方法,提出了一种分层多智能强化学习算法。该算法决定分配给电力用户终端的资源和数字孪生体的放置,上层通过深度Q网络实现切片通信资源的分配,下层通过多智能体深度强化学习实现电力用户终端的数字孪生体放置。实验结果表明,所提出的分层多智能体算法在电力用户终端数字孪生体的同步强度上能获得较好的系统收益。
5G电力虚拟专网 数字孪生 深度强化学习 5G power virtual private network digital twin deep reinforcement learning 
半导体光电
2023, 44(5): 803
吴嘉程 1,2蔡萌 3陆宇杰 1,3黄楠顺 4,*[ ... ]赵振堂 1,2,3
作者单位
摘要
1 上海科技大学物质科学与技术学院,上海 201210
2 中国科学院上海高等研究院,上海 201210
3 中国科学院上海应用物理研究所,上海 201800
4 张江实验室,上海 201210
束流轨道优化是短波长自由电子激光调试放大过程的关键环节。在实际实验中,需要花费大量的时间来调整参数,以校正轨道。为简化该多参数调优过程,研究了基于深度强化学习的自动优化技术,在仿真环境中使用SAC、TD3和DDPG算法调整多个校正磁铁,以优化自由电子激光的输出功率。为模拟实际实验中非理想的轨道状态,在第一节波荡器入口处设置一磁铁以偏转束流轨道。随后利用深度强化学习算法自动调节后续7个磁铁以校正轨道。结果表明,通过引入偏差将输出功率降低一个数量级后,基于最大熵原理的SAC算法将功率恢复到初始值的98.7%,优于TD3与DDPG算法。此外,SAC算法表现出更强的鲁棒性,有望后续应用在我国X射线自由电子激光装置中实现自动调束。
激光光学 自由电子激光 轨道校正 输出功率 深度强化学习 多参数优化 
光学学报
2023, 43(21): 2114002
作者单位
摘要
海军工程大学, 武汉 430000
针对合作多智能体系统缺乏个体奖励信号的情况下, 不同智能体贡献无法区分导致合作效率低下的问题, 利用价值分解范式引入了信用分配可区分性评价指标, 并提出一种基于梯度熵正则化的方法实现区分度较高的信用分配。在此基础上, 结合多智能体深度强化学习算法, 提出一种改进型QMIX网络。通过SMAC多智能体学习环境和Starcraft2自带的地图编辑器, 建立相应仿真实验环境, 结果表明新提出的改进型QMIX网络相较于QMIX网络, 学习效率和整体性能均有所提升, 更适用于部分可观测环境下的合作多智能体强化学习问题。
多智能体 强化学习 信用分配 梯度熵 multi-agent reinforcement learning credit allocation gradient entropy 
电光与控制
2023, 30(4): 78
作者单位
摘要
湖北工业大学电气与电子工程学院,武汉 430068
针对车辆对一切(V2X)通信所面临的频谱稀缺问题,文章提出了一种深度强化学习方法对V2X频谱资源进行管理。首先,建立单个车辆对基础设施链路的V2X通信模型,结合频谱子带和传输功率等约束条件,构建优化问题以最大化V2X通信网络综合效率;其次,考虑到优化问题的非凸性,将其建模为马尔可夫决策过程;接着,引入基于竞争构架Q网络(Dueling-DQN)算法,以获得最优频谱子带选择和传输功率分配策略,使V2X通信网络综合效率最大化;最后,通过Tensorflow软件平台进行实验仿真,以验证所提方法的性能。实验结果表明,Dueling-DQN算法与其他算法相比,能够获得更高的链路性能和V2X通信网络效率。
车辆对一切通信 深度强化学习 频谱分配 传输功率分配 车辆对一切通信网络 综合效率 V2X communication deep reinforcement learning spectrum allocation transmission power distribution V2X communication network comprehensive efficiency 
光通信研究
2023, 49(3): 71
吴佳蔚 1,2王豪 1,2付星 1,2柳强 1,2,*
作者单位
摘要
1 清华大学精密仪器系,北京 100084
2 光子测控技术教育部重点实验室,北京 100084
随着人工智能技术的飞速发展与广泛应用,人们对计算资源的需求日益增长,面对电子摩尔定律所遇到的原理性瓶颈,光子以高传输速度、高并行度等优势成为研究人员心目中的下一代计算机载体之一。近年来的研究工作显示,激光谐振腔内许多有趣的物理现象和复杂的动态演化过程能够被用于各种各样的数据处理与计算任务,极大地拓展了激光器的应用范围。在这篇综述中,笔者对基于激光谐振腔的智能光子计算的研究进展进行了集中的介绍与梳理,主要内容涵盖利用激光腔内的混沌过程辅助光电强化学习、利用光反馈激光器的非线性信号变换构建光电储备池网络,以及利用激光网络向稳定振荡状态的自发演化求解组合优化问题。在介绍相关最新进展之余,笔者分析讨论了智能激光计算系统面临的挑战,并对其未来的发展趋势进行了展望。
光计算 激光器 人工智能 光电强化学习 光电储备池计算 光学伊辛机 
中国激光
2023, 50(11): 1101002
作者单位
摘要
1 海军工程大学, 武汉 430000
2 中国人民解放军91867部队, 浙江 义乌 322000
面对复杂的三维环境, 传统的路径规划算法计算复杂度极度增加, 失去了原有的效果。深度强化学习可以不依赖于精确的环境模型, 其总体效率远高于传统算法。针对三维环境下的AUV路径规划问题, 在建立避碰探测模型和gym仿真环境的基础上, 改进网络结构的PPO算法设计及模型训练。通过仿真实验, 验证了算法的准确率与有效性。
路径规划 近端策略优化 深度强化学习 AUV AUV path planning proximal policy optimization deep reinforcement learning 
电光与控制
2023, 30(1): 87

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!