光学学报 丨 2024-01-11
分布式光纤传感技术研究和应用的现状及未来中国激光 丨 2024-01-24
光量子精密测量研究进展(特邀)光学学报 丨 2024-02-23
水下轨道角动量光通信中国激光 丨 2024-01-24
超构表面:设计原理与应用挑战(特邀)激光与光电子学进展 丨 2024-01-29
窄线宽激光技术研究进展(特邀)近日,日本情报通信研究机构(NICT)研究人员通过引入混沌振荡超快时间序列的时分复用,证明了一种可扩展的、流水线化的解决多臂赌博机(Multi-armed Bandit)的原理。并给出了多达64臂赌博问题的实验证明。该研究成果以" Scalable photonic reinforcement learning by time-division multiplexing of laser chaos "为题发表在7月18号出版的《Scientific Reports》上。
强化学习涉及动态和不确定环境下的决策,是人工智能的重要组成部分。以前的工作中,实验证明了激光的超快混沌振荡动力学可以有效地解决双臂赌博机(Two-armed Bandit)问题,这就需要对一种叫做探索-利用困境(Exploration-exploitation Dilemma)的困难权衡做出决策。然而,在这项研究中只使用了两种选择,因此,应该澄清激光混沌强化学习的可扩展性。在本研究中,作者通过引入混沌振荡超快时间序列的时分复用,证明了一种可扩展的、流水线化的解决多臂赌博机的原理。并给出了激光混沌时间序列明显优于准周期信号、计算机生成的伪随机数和有色噪声的多达64臂赌博问题的实验证明。详细分析了在不同物理条件下产生的激光混沌信号的性能比较,这与时间序列固有扩散性是一致的。本研究利用光波的超高带宽和实用的辅助技术,为超快强化学习铺平了道路。
基于激光混沌的可扩展强化学习体系结构
本文受译者委托,享有该文的专有出版权,其他出版单位或网站如需转载,请与本站联系,联系email:mail#opticsjournal.net (为防止垃圾邮件,请将#换为@)。否则,本站将保留进一步采取法律手段的权利。