基于强化学习的准分子激光器能量控制算法研究 下载: 1010次
1 引言
高重复频率的准分子激光器一直是大规模半导体光刻研究的重点[1], 目前ArF准分子激光器作为生产半导体器件的光刻机的光源,其能量稳定性直接影响着芯片生产的关键环节[2]。 准分子激光器在连续运行的过程中,随着不断进行高压放电,卤素气体变为稳定的化合物,产生激光,同时卤素气体的浓度也明显下降,激光器的输出能量变低[3]。所以对准分子激光器进行能量控制十分重要。光刻用准分子激光器的出光能量受到多种因素的影响[4],其中气体和电源产生的激励电压是最重要的两个因素,因此维持其能量稳定性的方法主要有两种,分别是调节激励电压和补气,但是相较于补气,调节激励电压实时性更好,调节精度也更高。
国外光刻用准分子激光器的生产和研究发展较为迅速,已经有很多投入实际应用的准分子激光器产品,像Cymer的XLR 700ix[5]、XLR 800ix[6]、XLR 860ix[7]等,Gigaphoton的GT40A[8]、GT65A[9]等,这些产品在正常工作情况下可以保持较高的稳定性,单脉冲能量的波动基本上维持在5~15 mJ范围内,脉冲的输出功率大部分为20~90 W,个别产品类型最高功率可以达到120 W。国内在激光器的研究方面,对于光纤激光器的研究较多,也较为成熟,陈晓龙等[10]基于自主研发的大模场增益光纤和无源器件,采用双端抽运技术,搭建了一台全国产化10 kW光纤激光器,实现了非线性效应抑制。刘晓东等[11]提出一种通用的抛物带式矩形光斑积分镜,建立了分段抛物线匀化模型,推导了满足超精密车削加工的分段抛物线方程。而对于准分子激光器的研究则起步较晚,但是也有一些成熟的成果,在准分子激光器的研究中,有一些针对气体、探测器信号传输和腔体的研究。朱能伟等[12]对准分子激光器的气体使用FLUENT软件进行了稳态流场仿真,为准分子激光器内部的驱动风机和流道设计提供了一种经济快捷的手段。潘宁等[13]介绍了常见的强电磁干扰下的模拟信号传输方法,并改进了一种传输方案。范元媛等[14]结合线宽压窄技术方案设计了193 nm ArF准分子激光器复合腔结构,大幅提升了激光效率,优化了能量稳定性。刘斌等[15]采用阴影法对高重复频率准分子激光器放电腔内的放电冲击波现象进行了实验研究,为放电腔的设计提供了技术支持。在能量控制方面,朱峰等[16]研究了重复频率HF脉冲激光器的气体介质对激光输出能量稳定性的影响规律,计算结果可为重复频率非链式HF脉冲激光器设计提供技术支持。王效顺等[17]中采用比例积分(PI)算法实现了对高重复频率ArF准分子激光器在连续出光状态下能量稳定性的控制。赵读亮等[18]对308 nm准分子激光皮肤治疗仪进行了研究,采用PI算法实现了能量稳定性的控制。但是针对光刻用准分子激光器在Burst模式下的能量控制,国内的相关研究较少,还有很大的研究和探索空间。
本文针对光刻用准分子激光器,提出了一种结合强化学习(RL)的准分子激光器的控制算法。从准分子激光器的实际系统状况出发,根据出光的单脉冲能量判断系统状态,控制系统通过离散化的状态感知出光能量环境,产生电压预测值调节下一脉冲的激励电压,使能量稳定性和剂量精度较现有算法提高约20%。
2 仿真模型
2.1 准分子激光器能量仿真模型
光刻用准分子激光器工作在Burst模式下,即激光器输出一个序列的脉冲以后,会有一个停止工作的间隔,将这一串脉冲命名为Burst[19]。
本节用近似的方法建立一个准分子激光器模型,使其在经验上接近Burst和单脉冲的能量特性。激光器实际产生的Burst能量序列如
图 1. 准分子激光器恒高压工作模式下单脉冲能量变化规律
Fig. 1. Single pulse energy change under constant high voltage working mode of excimer laser
在模型建立时根据实验和激光脉冲的数理统计特性,假设每个激光脉冲的能量值成正态分布。对准分子激光器单脉冲的分析可知,出光能量和激光脉冲间的时间间隔有关,时间越长,这种能力恢复的越好,出光越频繁,这种能力下降越快,据此可以建立如
图 2. 准分子激光器单脉冲能量仿真模型示意图
Fig. 2. Schematic of single pulse energy simulation model of excimer laser
在一定范围内,相同条件下,激光器的放电高压越大能量越高,但会出现饱和现象。所以建立基准激光脉冲能量和放电高压的关系,表示为
式中:Vh为放电高压的上限;Vl为放电高压的下限;V为放电高压;R为比例常数;k(V)为当放电高压为V时的能量变化率ΔE/ΔV;E(n)为放电高压V(n)对应的基准能量。
将激光器的出光能力初始值设定为1,当激光器进行下一个激光脉冲出光时,由于脉冲间的时间间隔,激光器的出光能力得到更新,表示为一个与脉冲间的时间间隔相关的函数,即
式中:Aafter表示出光时间间隔恢复的出光能力;α表示激光器出光能力的缓慢下降,模型中取0.98;T为出光脉冲时间间隔;a、b分别为模拟出光能力恢复的参数,一般而言,能力的恢复较为缓慢,在此模型中,a=0.001,b=3。考虑到工作气体衰减对
于出光能力的影响,出光能力会随出光总脉冲数的增加而衰减,表示为
式中:n表示激光器从初始状态所发出的激光器脉冲总数;c用于模拟在长时间出光条件下的缓慢气体消耗,一般很小,在这里取0.0002。
利用该模型产生的恒高压条件下4 kHz重复频率的工况下的一个Burst的单脉冲能量变化与实际测得的相同工况下的一个Burst的单脉冲能量变化的对比图如
图 3. 相同工作模式下实测和模型产生一个Burst的脉冲能量变化对比。(a)实测Burst脉冲能量;(b)模型Burst脉冲能量
Fig. 3. Comparison of Burst's pulse energy change measured and model under the same working mode. (a) Measured Burst pulse energy; (b) model Burst pulse energy
2.2 衡量能量的性能指标
准分子激光器产生的激光能量有明确的判断标准,衡量激光器能量好坏最主要的指标是能量稳定性和剂量精度。能量稳定性表征单个脉冲能量的好坏,剂量精度表征能量在一段时间内的相对稳定性。能量稳定性σ的定义为
式中:N表示激光的脉冲数,通常取100;Ei表示某一个激光脉冲的能量值;Eaverage表示N个激光脉冲的平均值。
激光器Nslit个脉冲的剂量定义为
脉冲剂量精度Hj的定义为
式中:Dtarget为Nslit个脉冲的目标剂量值。
衡量剂量稳定的方法为:计算Burst序列中每个脉冲(脉冲所在位置序列号大于等于Nslit)发出后的剂量精度,Burst的剂量精度用每个Burst中pulse的剂量精度绝对值的最大值来衡量。至此就可以对模型产生的脉冲能量进行评价。
2.3 基于强化学习的准分子激光器脉冲控制模型
根据光刻过程对准分子激光器的响应时间要求,基于强化学习脉冲控制算法的主要思路是在采用决策组合的PI算法的基础上结合Q-learning算法,对控制系统所需的参数进行迭代学习,达到控制参数的自适应,整个控制系统的算法流程框图如
在控制系统中设计了三个PI控制器,其中PI控制器1和PI控制器3分别用来控制超调脉冲和常态脉冲的能量稳定性,PI控制器2用于单脉冲的剂量精度的控制。超调部分以不同Burst间同一位置上的脉冲形成控制算法,表示为
式中:VEm+1,i表示在第m+1个Burst中第i个脉冲应该设定的放电高压,对应产生的脉冲能量表示为Em+1,i;Kp1表示针对于能量超调部分的比例参数;Ki1表示针对于能量超调部分的积分参数;ΔEm,i表示设定能量值和实际能量值之间的误差。
图 4. 基于强化学习的准分子激光器控制系统
Fig. 4. Control system of excimer laser based on reinforcement learning
对于非超调部分,脉冲对电压变化的响应在同一Burst内是相同的,所以根据前一个脉冲对后一个脉冲进行控制,其PI能量控制算法的公式为
式中:VEm,i表示在第m个Burst中第i个脉冲应该设定的放电高压,对应产生的脉冲的能量表示为Em,i;Kp3表示针对于非超调部分的比例参数;Ki3表示针对于非超调部分的积分参数。
剂量精度的控制算法采用的是PI控制算法,表示为
式中:VDm,i表示下一个脉冲需要设置的能量值;Kp2为PI算法的比例系数;ΔD(n)为当前脉冲剂量精度的偏差;Ki2为PI算法的积分系数;TDT表示PI算法的周期系数;
在控制系统中,能量反馈控制算法和剂量反馈控制算法都会得出对于放电高压的设定值,所以采用决策的方法来输出最终设定的放电高压值。
对于超调脉冲和非超调脉冲决策组合的参数分别为β1和β2,同样采用Q-table对取值进行优化,设计的参数变化范围都为(0,1),参数变化的步长为0.01。
Q-learning算法的更新过程[20]如下式所示,在迭代更新的过程中系统根据奖励值r更新Q表中相应的Q值,从而进行动作的选择。
式中:α为学习率;γ为折扣因子;s代表当前状态;a代表动作值即相应的控制参数输出;s'表示预测状态;a'表示预测动作;Q(s,a)表示当前状态和动作对应的Q值。
算法在更新迭代的过程中主要分为以下几个部分。
1) 参数初始化
初始化算法需要用到的各个参数,折扣因子γ=0.9,贪婪概率ε=0.1,8张Q表的学习率α1=α2=…=α6= 0.8,α7=α8=0.7,3组PI参数以及β1和β2在给定范围内随机初始化。
2) 状态离散化和奖励函数
由于采用的是强化学习的算法,因此需要保证算法能够感知每个时刻的脉冲状态,单个脉冲根据其能量差|ΔE|和剂量差|ΔD|以及δE和δD对状态进行判断,四个变量的临界分别为ΔE=0.12,ΔD=0.004,δE=0,δD=0,根据这四个临界把脉冲分成16个状态。
这两个参数的变化反映了系统的变化趋势,如果都为负,则说明此时的参数对当前系统状态是最有效的。
根据离散化的状态参数定义奖励函数,表示为
在对状态进行判断以后根据离散化的状态参数计算奖励值,然后依据(14)式计算新的Q值来更新Q表。
3) 脉冲判断
根据单脉冲在一个Burst中的位置判断其为超调脉冲还是常态脉冲,如果是超调脉冲,则将其作为PI控制器1和PI控制器2的输入,并采用决策参数β1组合输出。否则输入到PI控制器2和PI控制器3中,采用决策参数β2组合输出。
4) 动作选择
在脉冲状态作为输入后,需要选择动作值,即为对应的PI参数值以及决策组合参数值。动作选择采用ε-greedy策略,具有一定的概率随机选择一个动作值,表示为
式中:A为最终选择的动作值;Ai为动作全体集合An中的任意一个动作值;ε为随机探索动作的概率;ξ是介于0和1之间的随机数。
在计算过程中,由于随机探索过程在不同的系统状态下对结果的影响不同,所以可以通过实时判断随机策略对Q-table中Q值的影响来更新参数ε,更新过程为
式中:Q(s,:)为Q-table中对应状态s的所有Q值的集合;Q'(s,:)为Q-table更新后,对应状态s的所有Q值的集合。即当前随机性的数值对Q值的最大值更新有利的时候,适当增大ε的值,否则保持当前ε的值。
5) 学习率更新
学习率α在算法中主要影响的是算法的收敛速率,α定义了前一Q值在下一Q值中占的比重,根据Q值的变化采用Delta-Bar-Delta[21]算法对α进行更新,定义时间差分(TD)误差为
根据不同时刻的
式中:λ是增大学习率的正常数;η是减小学习率的正常数。
应用此规则,可以将当前时刻TD误差与前一时刻的TD误差进行比较来更新学习率的值。 当学习率太大时,(18)式会根据
3 实验结果分析
本文用于运行强化学习算法的平台是一台配备有Intel Xeon 2.40 GHz(E5-2630v3)处理器,16 GB RAM和Nvidia GTX1080、8 GB GPU的工作站,准分子激光器和控制算法的模型使用Matlab 2019进行建立。为了验证本文算法的有效性和稳定性,在近似方法建立的能量电压关系模型的基础上采用两种常用的PID参数整定算法,分别为Z-N参数整定法[22]和粒子群优化(PSO)参数整定法[23],与基于强化学习算法的实验结果进行对比。其中PSO算法整定的PI参数选取范围与基于强化学习的算法的变化范围相同,粒子群的大小为40,维数为2,最大迭代次数为100,学习因子c1=0.8,c2=0.6,适应度函数采用ITAE函数。准分子激光器模型的能量设定值为10 mJ,最大调节电压为2200 V,最小调节电压为1400 V,初始能量值为7 mJ,出光频率设置为4 kHz,设定每个Burst的脉冲数为300 ,前10个脉冲为超调脉冲,计算Dose的脉冲数Nslit=30,总的出光脉冲数设为90000。
同时,为了加快算法的收敛速度,根据经验整定原始的参数,将参数的变化范围设定为经验值上下20,变化步长为0.5,对应参数的范围如
表 2. 算法能量数据信息
Table 2. Algorithm energy data information
|
表 3. 动态稳定性数据
Table 3. Dynamic stability data
|
表 1. PI控制器参数变化范围
Table 1. Parameter range of PI controller
|
三种方法在运行平稳后的能量波形对比如
对三种算法下的出光脉冲的能量数据进行统计,得到的数据如
图 5. 出光能量值对比。(a) Z-N参数整定的PI算法;(b) PSO整定的PI算法;(c)基于强化学习的算法
Fig. 5. Comparison of light energy values. (a) Z-N parameter tuning PI algorithm; (b) PSO tuning PI algorithm; (c) algorithm based on reinforcement learning
从
将所有脉冲的能量值统计成直方图的形式得到的结果如
图 6. 算法单脉冲能量直方图对比。(a) Z-N参数整定的PI算法;(b) PSO整定的PI算法;(c)基于强化学习的算法
Fig. 6. Comparison of algorithm single pulse energy histograms. (a) Z-N parameter tuning PI algorithm; (b) PSO tuning PI algorithm; (c) algorithm based on reinforcement learning
在实验中产生了90000个脉冲即300个Burst,对每个Burst的能量稳定性进行分析,其中3σ表示相对标准差的3倍,得到的结果如
图 7. Burst能量稳定性对比图。(a) Z-N参数整定的PI算法;(b) PSO整定的PI算法;(c)基于强化学习的算法
Fig. 7. Comparison of Burst energy stability. (a) Z-N parameter tuning PI algorithm; (b) PSO tuning PI algorithm; (c) algorithm based on reinforcement learning
脉冲剂量精度对比如
图 8. Burst剂量精度对比。(a)Z-N参数整定的PI算法;(b)PSO整定的PI算法;(c)基于强化学习的算法
Fig. 8. Comparison of Burst dose stability. (a) Z-N parameter tuning PI algorithm; (b) PSO tuning PI algorithm; (c) algorithm based on reinforcement learning
在光刻用准分子激光的实际使用过程中,可能会根据需要来改变能量的设定值,这就要求系统能够及时响应设定能量的变化,需要具有较高的动态稳定性。在仿真过程中模拟能量设定值和电压偏差较大的情况,系统的初始设定电压为1700 V,出光的能量值为10 mJ,更改能量的设定值为11.3 mJ,得到的结果如
图 9. 动态稳定性对比。(a) Z-N参数整定的PI算法;(b) PSO整定的PI算法;(c)基于强化学习的算法
Fig. 9. Comparison of dynamic stability. (a) Z-N parameter tuning PI algorithm; (b) PSO tuning PI algorithm; (c) algorithm based on reinforcement learning
考虑到算法最终要部署到实际的准分子激光器上运行,所以算法要满足实时性的要求。对于准分子激光器的实时性,理论上是满足产生一个脉冲的时间在250 μs内的要求,所以需要将算法在计算平台中产生一个脉冲的时间换算到实际的设备中,根据下式计算出程序使用的时钟周期。
式中:TCPU表示程序在CPU中运行的时间;Nclock表示时钟周期数;Fmain表示CPU的主频。
从(19)式中可以看出,同一段程序在不同的CPU上运行的时间和主频成反比,根据
4 结论
本文通过对光刻用准分子激光器的单脉冲能量以及Burst模式下的脉冲能量性质进行分析,采用近似的方法对准分子激光器进行了建模。设计了一种基于强化学习的准分子激光器单脉冲能量控制算法,使单脉冲满足能量稳定性和剂量精度。且相较于Z-N参数整定法和PSO参数整定法,本文算法的实时性和稳定性更好,能够适应各种放电高压下的脉冲能量变化,得到的脉冲控制效果更平稳,单个Burst的能量标准差更低。同时在理论上能够满足光刻用准分子激光器的时间要求,在动态稳定性方面,减少了激光器调节的Burst数,缩短了调节时间,且满足光刻用准分子激光器脉冲实时性的要求。在实际的实验设备上具有可行性,可以部署到实际的准分子激光器上来提升现有设备的性能。
[1] 余吟山, 游利兵, 梁勖, 等. 准分子激光技术发展[J]. 中国激光, 2010, 37(9): 2253-2270.
[2] Watanabe H, Komae S, Tanaka S, et al. Reliable high-power injection locked 6 kHz 60 W laser for ArF immersion lithography[J]. Proceedings of SPIE, 2007, 6520: 652031.
[3] BastingD. Excimer laser technology[M]. New York: Springer, 2001.
[4] 石海燕, 赵江山, 宋兴亮, 等. 光刻用准分子激光器能量稳定性影响因素分析[J]. 红外与激光工程, 2014, 43(11): 3540-3546.
Shi H Y, Zhao J S, Song X L, et al. Analysis on factors affecting energy stability of excimer laser for lithography[J]. Infrared and Laser Engineering, 2014, 43(11): 3540-3546.
[5] Cacouris T, Conley W, Thornes J, et al. New ArF immersion light source introduces technologies for high-volume 14 nm manufacturing and beyond[J]. Proceedings of SPIE, 2015, 9426: 942618.
[6] Cacouris T, Rechtsteiner G, Conley W. Next-generation DUV light source technologies for 10 nm and below[J]. Proceedings of SPIE, 2017, 10147: 1014718.
[7] Cacouris T, Thornes J, Sells M, et al. Advanced light source technologies for memory and logic processes[J]. Proceedings of SPIE, 2018, 10587: 105870Y.
[8] Tanaka S, Tsushima H, Nakaike T, et al. GT40A: durable 45 W ArF injection-lock laser light source for dry/immersion lithography[J]. Proceedings of SPIE, 2006, 6154: 61542O.
[9] Miyamoto H, Kumazaki T, Tsushima H, et al. The ArF laser for the next generation multiple-patterning immersion lithography supporting green operations and leading edge processes[J]. Proceedings of SPIE, 2017, 10147: 1014719.
[10] 陈晓龙, 楼风光, 何宇, 等. 高效率全国产化10 kW光纤激光器[J]. 光学学报, 2019, 39(3): 0336001.
[11] 刘晓东, 秦应雄, 柳洁, 等. 高功率激光大宽度矩形光束抛物带式积分镜研究[J]. 激光与光电子学进展, 2019, 56(19): 191403.
[12] 朱能伟, 方晓东. 基于FLUENT的准分子激光器气体流场数值仿真[J]. 中国激光, 2016, 43(9): 0901007.
[13] 潘宁, 梁勖, 林颖, 等. 准分子激光系统中模拟信号的传输方法[J]. 红外与激光工程, 2019, 48(9): 0905003.
[14] 范元媛, 周翊, 刘广义, 等. 高效率ArF准分子激光复合腔技术研究[J]. 中国激光, 2016, 43(2): 0202001.
[15] 刘斌, 丁金滨, 王魁波, 等. 高重复频率准分子激光器中放电冲击波特性的实验研究[J]. 中国激光, 2019, 46(12): 1201001.
[16] 朱峰, 黄珂, 陶蒙蒙, 等. 重复频率HF激光脉冲能量稳定性的理论分析[J]. 光学学报, 2019, 39(4): 0414001.
[17] 王效顺, 梁勖, 游利兵, 等. 高重复频率ArF准分子激光器能量控制算法研究[J]. 激光技术, 2012, 36(6): 763-766.
[18] 赵读亮, 李文洁, 梁勖, 等. 准分子激光皮肤治疗仪能量稳定性研究[J]. 红外与激光工程, 2017, 46(12): 1206001.
[19] Sandstrom RL, Besaucele HA, Fomenkov IV, et al. 1999-12-21.
[20] Dayan P. Q-learning[J]. Machine Learning, 1992, 8(3/4): 279-292.
[21] Jacobs R A. Increased rates of convergence through learning rate adaptation[J]. Neural Networks, 1988, 1(4): 295-307.
[22] 黄友锐, 曲立国. PID控制器参数整定与实现[M]. 北京: 科学出版社, 2010.
Huang YR, Qu LG. PID controller parameter tuning and implementation[M]. Beijing: Science Press, 2010.
[23] Chiou J S, Tsai S H, Liu M T. A PSO-based adaptive fuzzy PID-controllers[J]. Simulation Modelling Practice and Theory, 2012, 26: 49-59.
孙泽旭, 冯泽斌, 周翊, 刘广义, 韩晓泉. 基于强化学习的准分子激光器能量控制算法研究[J]. 中国激光, 2020, 47(9): 0901002. Sun Zexu, Feng Zebin, Zhou Yi, Liu Guangyi, Han Xiaoquan. Energy Control of Excimer Laser Based on Reinforcement Learning[J]. Chinese Journal of Lasers, 2020, 47(9): 0901002.