基于强化学习的准分子激光器能量控制算法研究

孙泽旭; 冯泽斌; 周翊; 刘广义; 韩晓泉

doi:doi:10.3788/CJL202047.0901002

中国激光, 2020, 47 (9): 0901002, 网络出版: 2020-09-16

基于强化学习的准分子激光器能量控制算法研究下载： 1010次

Energy Control of Excimer Laser Based on Reinforcement Learning

论文大纲

孙泽旭 ^1,2冯泽斌 ^1,2周翊 ^1,2刘广义 ^1,2韩晓泉 ^1,2,*

作者单位

¹ 中国科学院微电子研究所光电研发中心, 北京 100029

² 中国科学院大学, 北京 100049

激光器光刻准分子激光器强化学习能量稳定性剂量精度 lasers photolithography excimer laser reinforcement learning energy stability dose accuracy

AI 词云图 AI语音精读 AI语音超短摘要

注：本部分内容由 AI 自动生成，请您知悉。

摘要

光刻用准分子激光器的能量特性在集成电路的光刻过程中至关重要,直接影响光刻机曝光线条的精度。为了实现对于衡量能量特性的能量稳定性和剂量精度的精确控制,从放电电压调节的角度对激光脉冲的能量特性控制进行了研究。为了设计能量特性控制算法,首先对准分子激光器的放电特性建立了仿真模型,并验证了模型的有效性。然后,设计了基于强化学习的准分子激光器能量特性控制算法。最后在仿真模型上,分别采用Z-N(Ziegler-Nichol)参数整定的比例积分(PI)算法、粒子群优化(PSO)整定的PI算法和基于强化学习的算法对出光脉冲进行了控制,将最终的结果进行对比。实验结果证明,在基于强化学习的能量控制算法的控制下,激光器的能量稳定性小于4%,剂量精度小于0.3%,并且动态性能要优于Z-N参数整定的PI算法、PSO整定的PI算法。证明了算法的优越性,提高了光刻用准分子激光器的鲁棒性和实用性,满足了半导体光刻需求。

Abstract

The energy characteristics of lithography excimer lasers are critical in the lithography process of integrated circuits and directly affect the accuracy of the exposure lines of the lithography machine. In order to design a laser energy control algorithm, a simulation model is built for the discharge characteristics of the excimer laser, and the validity of the model is verified. Then, design an energy control algorithm for excimer laser based on reinforcement learning. Finally, on the simulation model, the Z-N (Ziegler-Nichol) parameter tuning proportion integral (PI) algorithm, particle swarm optimization (PSO) tuning PI algorithm and reinforcement learning-based algorithm are used to control the pulse of laser output, and compare the final results. The experimental results show that under the control of the energy control algorithm based on reinforcement learning, the laser energy stability is less than 4%, the dose accuracy of is less than 0.3%, and the dynamic performance is better than the Z-N parameter tuning PI algorithm and PSO tuning PI algorithm. Prove the superiority of the algorithm, improve the robustness and practicability of lithography excimer laser, and meet the needs of photolithography.

1 引言

高重复频率的准分子激光器一直是大规模半导体光刻研究的重点^[1], 目前ArF准分子激光器作为生产半导体器件的光刻机的光源,其能量稳定性直接影响着芯片生产的关键环节^[2]。准分子激光器在连续运行的过程中,随着不断进行高压放电,卤素气体变为稳定的化合物,产生激光,同时卤素气体的浓度也明显下降,激光器的输出能量变低^[3]。所以对准分子激光器进行能量控制十分重要。光刻用准分子激光器的出光能量受到多种因素的影响^[4],其中气体和电源产生的激励电压是最重要的两个因素,因此维持其能量稳定性的方法主要有两种,分别是调节激励电压和补气,但是相较于补气,调节激励电压实时性更好,调节精度也更高。

国外光刻用准分子激光器的生产和研究发展较为迅速,已经有很多投入实际应用的准分子激光器产品,像Cymer的XLR 700ix^[5]、XLR 800ix^[6]、XLR 860ix^[7]等,Gigaphoton的GT40A^[8]、GT65A^[9]等,这些产品在正常工作情况下可以保持较高的稳定性,单脉冲能量的波动基本上维持在5~15 mJ范围内,脉冲的输出功率大部分为20~90 W,个别产品类型最高功率可以达到120 W。国内在激光器的研究方面,对于光纤激光器的研究较多,也较为成熟,陈晓龙等^[10]基于自主研发的大模场增益光纤和无源器件,采用双端抽运技术,搭建了一台全国产化10 kW光纤激光器,实现了非线性效应抑制。刘晓东等^[11]提出一种通用的抛物带式矩形光斑积分镜,建立了分段抛物线匀化模型,推导了满足超精密车削加工的分段抛物线方程。而对于准分子激光器的研究则起步较晚,但是也有一些成熟的成果,在准分子激光器的研究中,有一些针对气体、探测器信号传输和腔体的研究。朱能伟等^[12]对准分子激光器的气体使用FLUENT软件进行了稳态流场仿真,为准分子激光器内部的驱动风机和流道设计提供了一种经济快捷的手段。潘宁等^[13]介绍了常见的强电磁干扰下的模拟信号传输方法,并改进了一种传输方案。范元媛等^[14]结合线宽压窄技术方案设计了193 nm ArF准分子激光器复合腔结构,大幅提升了激光效率,优化了能量稳定性。刘斌等^[15]采用阴影法对高重复频率准分子激光器放电腔内的放电冲击波现象进行了实验研究,为放电腔的设计提供了技术支持。在能量控制方面,朱峰等^[16]研究了重复频率HF脉冲激光器的气体介质对激光输出能量稳定性的影响规律,计算结果可为重复频率非链式HF脉冲激光器设计提供技术支持。王效顺等^[17]中采用比例积分(PI)算法实现了对高重复频率ArF准分子激光器在连续出光状态下能量稳定性的控制。赵读亮等^[18]对308 nm准分子激光皮肤治疗仪进行了研究,采用PI算法实现了能量稳定性的控制。但是针对光刻用准分子激光器在Burst模式下的能量控制,国内的相关研究较少,还有很大的研究和探索空间。

本文针对光刻用准分子激光器,提出了一种结合强化学习(RL)的准分子激光器的控制算法。从准分子激光器的实际系统状况出发,根据出光的单脉冲能量判断系统状态,控制系统通过离散化的状态感知出光能量环境,产生电压预测值调节下一脉冲的激励电压,使能量稳定性和剂量精度较现有算法提高约20%。

2 仿真模型

2.1 准分子激光器能量仿真模型

光刻用准分子激光器工作在Burst模式下,即激光器输出一个序列的脉冲以后,会有一个停止工作的间隔,将这一串脉冲命名为Burst^[19]。

本节用近似的方法建立一个准分子激光器模型,使其在经验上接近Burst和单脉冲的能量特性。激光器实际产生的Burst能量序列如图1所示,由于Burst开始的几个脉冲比后边的高很多,将其定义为“超调”。

图 1. 准分子激光器恒高压工作模式下单脉冲能量变化规律

Fig. 1. Single pulse energy change under constant high voltage working mode of excimer laser

下载图片查看所有图片

在模型建立时根据实验和激光脉冲的数理统计特性,假设每个激光脉冲的能量值成正态分布。对准分子激光器单脉冲的分析可知,出光能量和激光脉冲间的时间间隔有关,时间越长,这种能力恢复的越好,出光越频繁,这种能力下降越快,据此可以建立如图2所示的准分子激光器单脉冲能量模型图。

图 2. 准分子激光器单脉冲能量仿真模型示意图

Fig. 2. Schematic of single pulse energy simulation model of excimer laser

下载图片查看所有图片

在一定范围内,相同条件下,激光器的放电高压越大能量越高,但会出现饱和现象。所以建立基准激光脉冲能量和放电高压的关系,表示为

\begin{matrix} \{\begin{matrix} E (n + 1) = E (n) + ΔE (n + 1) \\ ΔE (n + 1) = k (V) \times ΔV (n + 1) \\ k (V) = \frac{R \times (V_{h} - V)}{V_{h} - V_{l}} \end{matrix}, (1) \end{matrix}

式中:V_h为放电高压的上限;V_l为放电高压的下限;V为放电高压;R为比例常数;k(V)为当放电高压为V时的能量变化率ΔE/ΔV;E(n)为放电高压V(n)对应的基准能量。

将激光器的出光能力初始值设定为1,当激光器进行下一个激光脉冲出光时,由于脉冲间的时间间隔,激光器的出光能力得到更新,表示为一个与脉冲间的时间间隔相关的函数,即

\begin{matrix} A_{after} = \{\begin{matrix} A_{old} + a + \frac{b}{T} & , A_{after} < 1 \\ 1 & , A_{after} \geq 1 \end{matrix}, (2) \end{matrix}

式中:A_after表示出光时间间隔恢复的出光能力;α表示激光器出光能力的缓慢下降,模型中取0.98;T为出光脉冲时间间隔;a、b分别为模拟出光能力恢复的参数,一般而言,能力的恢复较为缓慢,在此模型中,a=0.001,b=3。考虑到工作气体衰减对

于出光能力的影响,出光能力会随出光总脉冲数的增加而衰减,表示为

\begin{matrix} A_{new} = A_{after} \times (1 - c \times n), 0 < (1 - c \times n) < 1, (3) \end{matrix}

式中:n表示激光器从初始状态所发出的激光器脉冲总数;c用于模拟在长时间出光条件下的缓慢气体消耗,一般很小,在这里取0.0002。

利用该模型产生的恒高压条件下4 kHz重复频率的工况下的一个Burst的单脉冲能量变化与实际测得的相同工况下的一个Burst的单脉冲能量变化的对比图如图3所示。从图中可以看出,用仿真模型产生的一个Burst中的激光单脉冲能量变化规律和实测的相同工况下的激光器产生的一个Burst中的激光单脉冲能量变化规律一致,证明了模型的有效性。

图 3. 相同工作模式下实测和模型产生一个Burst的脉冲能量变化对比。(a)实测Burst脉冲能量;(b)模型Burst脉冲能量

Fig. 3. Comparison of Burst's pulse energy change measured and model under the same working mode. (a) Measured Burst pulse energy; (b) model Burst pulse energy

下载图片查看所有图片

2.2 衡量能量的性能指标

准分子激光器产生的激光能量有明确的判断标准,衡量激光器能量好坏最主要的指标是能量稳定性和剂量精度。能量稳定性表征单个脉冲能量的好坏,剂量精度表征能量在一段时间内的相对稳定性。能量稳定性σ的定义为

\begin{matrix} σ = \frac{\sqrt[]{\frac{\overset{N}{\sum_{i = 1}} (E_{average} - E_{i})^{2}}{N - 1}}}{E_{average}} \times 100 %, (4) \end{matrix}

式中:N表示激光的脉冲数,通常取100;E_i表示某一个激光脉冲的能量值;E_average表示N个激光脉冲的平均值。

激光器N_slit个脉冲的剂量定义为

\begin{matrix} D_{j} = \overset{N_{slit} + j - 1}{\sum_{i = j}} E_{i} 。 (5) \end{matrix}

脉冲剂量精度H_j的定义为

\begin{matrix} H_{j} = \frac{D_{j} - D_{target}}{D_{target}} \times 100 %, (6) \end{matrix}

式中:D_target为N_slit个脉冲的目标剂量值。

衡量剂量稳定的方法为:计算Burst序列中每个脉冲(脉冲所在位置序列号大于等于N_slit)发出后的剂量精度,Burst的剂量精度用每个Burst中pulse的剂量精度绝对值的最大值来衡量。至此就可以对模型产生的脉冲能量进行评价。

2.3 基于强化学习的准分子激光器脉冲控制模型

根据光刻过程对准分子激光器的响应时间要求,基于强化学习脉冲控制算法的主要思路是在采用决策组合的PI算法的基础上结合Q-learning算法,对控制系统所需的参数进行迭代学习,达到控制参数的自适应,整个控制系统的算法流程框图如图4所示。

在控制系统中设计了三个PI控制器,其中PI控制器1和PI控制器3分别用来控制超调脉冲和常态脉冲的能量稳定性,PI控制器2用于单脉冲的剂量精度的控制。超调部分以不同Burst间同一位置上的脉冲形成控制算法,表示为

\begin{matrix} V_{Em + 1, i} = K_{p 1} (Δ E_{m, i} + \frac{\overset{m}{\sum_{k = 1}} Δ E_{m, i}}{K_{i 1}}), (7) \end{matrix}

式中:V_Em+_1,_i表示在第m+1个Burst中第i个脉冲应该设定的放电高压,对应产生的脉冲能量表示为E_m+_1,_i;K_p₁表示针对于能量超调部分的比例参数;K_i₁表示针对于能量超调部分的积分参数;ΔE_m_,_i表示设定能量值和实际能量值之间的误差。

图 4. 基于强化学习的准分子激光器控制系统

Fig. 4. Control system of excimer laser based on reinforcement learning

下载图片查看所有图片

对于非超调部分,脉冲对电压变化的响应在同一Burst内是相同的,所以根据前一个脉冲对后一个脉冲进行控制,其PI能量控制算法的公式为

\begin{matrix} V_{Em, i} = K_{p 3} (Δ E_{m, i - 1} + \frac{\overset{i}{\sum_{k = g + 1}} Δ E_{m, k - 1}}{K_{i 3}}), (8) \end{matrix}

式中:V_Em_,_i表示在第m个Burst中第i个脉冲应该设定的放电高压,对应产生的脉冲的能量表示为E_m_,_i;K_p₃表示针对于非超调部分的比例参数;K_i₃表示针对于非超调部分的积分参数。

剂量精度的控制算法采用的是PI控制算法,表示为

\begin{matrix} V_{Dm, i} = K_{p 2} [ΔD (n) + \frac{K_{i 2}}{T_{DT}} \overset{n}{\sum_{i = 1}} ΔD (i)], (9) \end{matrix}

式中:V_Dm_,_i表示下一个脉冲需要设置的能量值;K_p₂为PI算法的比例系数;ΔD(n)为当前脉冲剂量精度的偏差;K_i₂为PI算法的积分系数;T_DT表示PI算法的周期系数; $\begin{matrix} \overset{n}{\sum_{i = 1}} \end{matrix}$ ΔD(i)表示剂量历史偏差的累加,n为脉冲所处Burst的相对位置。

在控制系统中,能量反馈控制算法和剂量反馈控制算法都会得出对于放电高压的设定值,所以采用决策的方法来输出最终设定的放电高压值。

\begin{matrix} V_{m, i} = β V_{Em, i} + (1 - β) V_{Dm, i}, 0 < β < 1 。 (10) \end{matrix}

对于超调脉冲和非超调脉冲决策组合的参数分别为β₁和β₂,同样采用Q-table对取值进行优化,设计的参数变化范围都为(0,1),参数变化的步长为0.01。

Q-learning算法的更新过程^[20]如下式所示,在迭代更新的过程中系统根据奖励值r更新Q表中相应的Q值,从而进行动作的选择。

\begin{matrix} \begin{matrix} Q (s, a) \leftarrow Q (s, a) + \\ α [r + γ \max_{a'} Q (s', a') - Q (s, a)], (11) \end{matrix} \end{matrix}

式中:α为学习率;γ为折扣因子;s代表当前状态;a代表动作值即相应的控制参数输出;s'表示预测状态;a'表示预测动作;Q(s,a)表示当前状态和动作对应的Q值。

算法在更新迭代的过程中主要分为以下几个部分。

1) 参数初始化

初始化算法需要用到的各个参数,折扣因子γ=0.9,贪婪概率ε=0.1,8张Q表的学习率α₁=α₂=…=α₆= 0.8,α₇=α₈=0.7,3组PI参数以及β₁和β₂在给定范围内随机初始化。

2) 状态离散化和奖励函数

由于采用的是强化学习的算法,因此需要保证算法能够感知每个时刻的脉冲状态,单个脉冲根据其能量差|ΔE|和剂量差|ΔD|以及δ_E和δ_D对状态进行判断,四个变量的临界分别为ΔE=0.12,ΔD=0.004,δ_E=0,δ_D=0,根据这四个临界把脉冲分成16个状态。

\begin{matrix} δ_{E} = | Δ E_{i} | - | Δ E_{i} - 1 |, (12) \end{matrix}

δ_{D} = | Δ D_{i} | - | Δ D_{i} - 1 | 。 (13)

这两个参数的变化反映了系统的变化趋势,如果都为负,则说明此时的参数对当前系统状态是最有效的。

根据离散化的状态参数定义奖励函数,表示为

\begin{matrix} r = \frac{\exp (- | ΔE |) + \exp (- | ΔD |)}{\exp (δ_{E}) + \exp (δ_{D})} 。 (14) \end{matrix}

在对状态进行判断以后根据离散化的状态参数计算奖励值,然后依据(14)式计算新的Q值来更新Q表。

3) 脉冲判断

根据单脉冲在一个Burst中的位置判断其为超调脉冲还是常态脉冲,如果是超调脉冲,则将其作为PI控制器1和PI控制器2的输入,并采用决策参数β₁组合输出。否则输入到PI控制器2和PI控制器3中,采用决策参数β₂组合输出。

4) 动作选择

在脉冲状态作为输入后,需要选择动作值,即为对应的PI参数值以及决策组合参数值。动作选择采用ε-greedy策略,具有一定的概率随机选择一个动作值,表示为

\begin{matrix} A = \{\begin{matrix} random A_{i}, A_{i} \in A_{n}, & ifξ < ε \\ \arg \max_{a} Q (s, a), & otherwise \end{matrix}, (15) \end{matrix}

式中:A为最终选择的动作值;A_i为动作全体集合A_n中的任意一个动作值;ε为随机探索动作的概率;ξ是介于0和1之间的随机数。

在计算过程中,由于随机探索过程在不同的系统状态下对结果的影响不同,所以可以通过实时判断随机策略对Q-table中Q值的影响来更新参数ε,更新过程为

\begin{matrix} \{\begin{matrix} Q_{1} = \max [Q (s, :)] \\ Q_{2} = \max [Q' (s, :)] \\ ε = εexp (Q_{2} - Q_{1}) \end{matrix}, (16) \end{matrix}

式中:Q(s,:)为Q-table中对应状态s的所有Q值的集合;Q'(s,:)为Q-table更新后,对应状态s的所有Q值的集合。即当前随机性的数值对Q值的最大值更新有利的时候,适当增大ε的值,否则保持当前ε的值。

5) 学习率更新

学习率α在算法中主要影响的是算法的收敛速率,α定义了前一Q值在下一Q值中占的比重,根据Q值的变化采用Delta-Bar-Delta^[21]算法对α进行更新,定义时间差分(TD)误差为

\begin{matrix} {\bar{δ}}_{t} = r + γ \max_{a'} Q (s', a') - Q (s, a) 。 (17) \end{matrix}

根据不同时刻的 $\begin{matrix} {\bar{δ}}_{t} \end{matrix}$ 和 $\begin{matrix} {\bar{δ}}_{t - 1} \end{matrix}$ 的值,得到时刻t的学习率α的变化值,表示为

\begin{matrix} Δ α_{t} = \{\begin{matrix} λ α_{t}, & if {\bar{δ}}_{t - 1} {\bar{δ}}_{t} > 0 \\ 0, & if {\bar{δ}}_{t - 1} {\bar{δ}}_{t} = 0 \\ - η α_{t}, & if {\bar{δ}}_{t - 1} {\bar{δ}}_{t} < 0 \end{matrix}, (18) \end{matrix}

式中:λ是增大学习率的正常数;η是减小学习率的正常数。

应用此规则,可以将当前时刻TD误差与前一时刻的TD误差进行比较来更新学习率的值。当学习率太大时,(18)式会根据 $\begin{matrix} {\bar{δ}}_{t - 1} \end{matrix}$ 和 $\begin{matrix} {\bar{δ}}_{t} \end{matrix}$ 的符号来降低学习率的值,使学习率适当减小;反之,当学习率太小时,则会通过一个正数来增大学习率从而加快算法的收敛速度。

3 实验结果分析

本文用于运行强化学习算法的平台是一台配备有Intel Xeon 2.40 GHz(E5-2630v3)处理器,16 GB RAM和Nvidia GTX1080、8 GB GPU的工作站,准分子激光器和控制算法的模型使用Matlab 2019进行建立。为了验证本文算法的有效性和稳定性,在近似方法建立的能量电压关系模型的基础上采用两种常用的PID参数整定算法,分别为Z-N参数整定法^[22]和粒子群优化(PSO)参数整定法^[23],与基于强化学习算法的实验结果进行对比。其中PSO算法整定的PI参数选取范围与基于强化学习的算法的变化范围相同,粒子群的大小为40,维数为2,最大迭代次数为100,学习因子c₁=0.8,c₂=0.6,适应度函数采用ITAE函数。准分子激光器模型的能量设定值为10 mJ,最大调节电压为2200 V,最小调节电压为1400 V,初始能量值为7 mJ,出光频率设置为4 kHz,设定每个Burst的脉冲数为300 ,前10个脉冲为超调脉冲,计算Dose的脉冲数N_slit=30,总的出光脉冲数设为90000。

同时,为了加快算法的收敛速度,根据经验整定原始的参数,将参数的变化范围设定为经验值上下20,变化步长为0.5,对应参数的范围如表1所示。

表 2. 算法能量数据信息

Table 2. Algorithm energy data information

Algorithm	Min	Max	Average	Median	Range	σ
Z-N	9.263	10.66	10	10	1.397	0.1645
PSO	9.196	10.72	9.999	10	1.524	0.1889
RL	9.055	10.62	10	10	1.565	0.1293

查看所有表

表 3. 动态稳定性数据

Table 3. Dynamic stability data

Algorithm	Pulse	Energy /mJ	Time /s
Z-N	3009	10.89	0.101
PSO	2404	10.80	0.165
RL	1509	10.89	0.068

查看所有表

表 1. PI控制器参数变化范围

Table 1. Parameter range of PI controller

Parameter	K_p₁	K_i₁	K_p₂	K_i₂	K_p₃	K_i₃
Range	[90,110]	[240,260]	[40,60]	[30,50]	[40,60]	[10,30]
Table	Q-table1	Q-table2	Q-table3	Q-table4	Q-table5	Q-table6

查看所有表

三种方法在运行平稳后的能量波形对比如图5所示。从图中可以看出,Z-N参数整定的PI控制算法由于自适应性差,能量的波动性较大,采用PSO和强化学习的方法去控制系统时,算法有适应系统环境的迭代过程,所以最开始的时候能量的波动相比PI算法较大,但是当过一段时间以后,系统趋近平稳。可以看出,基于强化学习的控制算法效果最好,波动的线宽最窄,证明其对超调脉冲的调节能力较强。

对三种算法下的出光脉冲的能量数据进行统计,得到的数据如表2所示。

图 5. 出光能量值对比。(a) Z-N参数整定的PI算法;(b) PSO整定的PI算法;(c)基于强化学习的算法

Fig. 5. Comparison of light energy values. (a) Z-N parameter tuning PI algorithm; (b) PSO tuning PI algorithm; (c) algorithm based on reinforcement learning

下载图片查看所有图片

从表2可以看出,在对全部的出光脉冲进行统计的结果中,三种算法的脉冲能量平均值和中值基本相同,基于强化学习的算法的标准差最小,较Z-N参数整定的PI算法提升约为20%,能量值的极差最大,主要是由于算法开始时的随机初始化造成的,但是考虑到光刻用准分子激光器的实际应用需求,初期的能量波动可以接受。

将所有脉冲的能量值统计成直方图的形式得到的结果如图6所示,从图中可以看出,本文算法单脉冲能量在设定值10周围集中度相比其他两种算法有明显优势,对单脉冲能量波动的适应度高。

图 6. 算法单脉冲能量直方图对比。(a) Z-N参数整定的PI算法;(b) PSO整定的PI算法;(c)基于强化学习的算法

Fig. 6. Comparison of algorithm single pulse energy histograms. (a) Z-N parameter tuning PI algorithm; (b) PSO tuning PI algorithm; (c) algorithm based on reinforcement learning

下载图片查看所有图片

在实验中产生了90000个脉冲即300个Burst,对每个Burst的能量稳定性进行分析,其中3σ表示相对标准差的3倍,得到的结果如图7所示。从图中可以看出,基于强化学习的控制算法单个Burst的标准差在脉冲调节平稳后不超过4%,大部分在3%附近波动,相比PI算法有明显的改善。相比PSO算法,虽然两者在能量稳定性的收敛值的差异较小,但是基于强化学习的算法收敛较快,表明算法对Burst状态的调整能力更强,适应度更高,脉冲能量相较于设定值的波动更小。

图 7. Burst能量稳定性对比图。(a) Z-N参数整定的PI算法;(b) PSO整定的PI算法;(c)基于强化学习的算法

Fig. 7. Comparison of Burst energy stability. (a) Z-N parameter tuning PI algorithm; (b) PSO tuning PI algorithm; (c) algorithm based on reinforcement learning

下载图片查看所有图片

脉冲剂量精度对比如图8所示,从图中可以看出,在基于强化学习的算法中,单个Burst的脉冲剂量精度基本上维持在0.004即0.4%以下,绝大多数在0.2%左右,并且Burst之间的变化较小,证明整体的出光过程平稳,剂量精度较高。

图 8. Burst剂量精度对比。(a)Z-N参数整定的PI算法;(b)PSO整定的PI算法;(c)基于强化学习的算法

Fig. 8. Comparison of Burst dose stability. (a) Z-N parameter tuning PI algorithm; (b) PSO tuning PI algorithm; (c) algorithm based on reinforcement learning

下载图片查看所有图片

在光刻用准分子激光的实际使用过程中,可能会根据需要来改变能量的设定值,这就要求系统能够及时响应设定能量的变化,需要具有较高的动态稳定性。在仿真过程中模拟能量设定值和电压偏差较大的情况,系统的初始设定电压为1700 V,出光的能量值为10 mJ,更改能量的设定值为11.3 mJ,得到的结果如图9所示,在动态稳定性的表现中,Z-N参数整定的PI算法大致在3000个脉冲时收敛到平稳状态,大约10个Burst。PSO算法在2400个脉冲附近达到收敛,约为8个Burst,较前者有小幅提升。本文提出的基于强化学习的算法在大约1500个脉冲时可以收敛平稳,约为5个Burst。

图 9. 动态稳定性对比。(a) Z-N参数整定的PI算法;(b) PSO整定的PI算法;(c)基于强化学习的算法

Fig. 9. Comparison of dynamic stability. (a) Z-N parameter tuning PI algorithm; (b) PSO tuning PI algorithm; (c) algorithm based on reinforcement learning

下载图片查看所有图片

表3中的Pulse代表准分子激光器在动态稳定性验证过程中达到稳定的脉冲数;Energy代表激光器能量达到稳定前最后一个脉冲的能量值;Time代表每一种算法情况下,激光器脉冲能量达到稳定的收敛时间。在收敛平稳的运行时间上,PSO算法没有提升,甚至变慢了许多,基于强化学习的算法较Z-N参数整定的PI算法稍快一些,收敛时对应的Burst数更少,更加具有实用性。

考虑到算法最终要部署到实际的准分子激光器上运行,所以算法要满足实时性的要求。对于准分子激光器的实时性,理论上是满足产生一个脉冲的时间在250 μs内的要求,所以需要将算法在计算平台中产生一个脉冲的时间换算到实际的设备中,根据下式计算出程序使用的时钟周期。

\begin{matrix} T_{CPU} = \frac{N_{clock}}{F_{main}}, (19) \end{matrix}

式中:T_CPU表示程序在CPU中运行的时间;N_clock表示时钟周期数;F_main表示CPU的主频。

从(19)式中可以看出,同一段程序在不同的CPU上运行的时间和主频成反比,根据表3中的数据可知,基于强化学习的算法在计算平台运行了1509个脉冲使用的时间是0.068 s,忽略内存以及操作系统线程调度对程序运行时间的影响,将其近似看作CPU运行的时间,依据工作站的主频为2.40 GHz,实际的准分子激光器嵌入式计算平台下位机的CPU主频是677 MHz,得到实际运行1509个脉冲运行的时间约为0.241 s。在实际控制过程中,每个脉冲的控制周期是均等的,所以单脉冲的运行时间约为160 μs,远小于要求的250 μs,能够满足光刻光源的实时性要求。

4 结论

本文通过对光刻用准分子激光器的单脉冲能量以及Burst模式下的脉冲能量性质进行分析,采用近似的方法对准分子激光器进行了建模。设计了一种基于强化学习的准分子激光器单脉冲能量控制算法,使单脉冲满足能量稳定性和剂量精度。且相较于Z-N参数整定法和PSO参数整定法,本文算法的实时性和稳定性更好,能够适应各种放电高压下的脉冲能量变化,得到的脉冲控制效果更平稳,单个Burst的能量标准差更低。同时在理论上能够满足光刻用准分子激光器的时间要求,在动态稳定性方面,减少了激光器调节的Burst数,缩短了调节时间,且满足光刻用准分子激光器脉冲实时性的要求。在实际的实验设备上具有可行性,可以部署到实际的准分子激光器上来提升现有设备的性能。

参考文献

[1] 余吟山, 游利兵, 梁勖, 等. 准分子激光技术发展[J]. 中国激光, 2010, 37(9): 2253-2270.

Yu Y S, You L B, Liang X, et al. Progress of excimer lasers technology[J]. Chinese Journal of Lasers, 2010, 37(9): 2253-2270.

[2] Watanabe H, Komae S, Tanaka S, et al. Reliable high-power injection locked 6 kHz 60 W laser for ArF immersion lithography[J]. Proceedings of SPIE, 2007, 6520: 652031.

[3] BastingD. Excimer laser technology[M]. New York: Springer, 2001.

[4] 石海燕, 赵江山, 宋兴亮, 等. 光刻用准分子激光器能量稳定性影响因素分析[J]. 红外与激光工程, 2014, 43(11): 3540-3546.

Shi H Y, Zhao J S, Song X L, et al. Analysis on factors affecting energy stability of excimer laser for lithography[J]. Infrared and Laser Engineering, 2014, 43(11): 3540-3546.

[5] Cacouris T, Conley W, Thornes J, et al. New ArF immersion light source introduces technologies for high-volume 14 nm manufacturing and beyond[J]. Proceedings of SPIE, 2015, 9426: 942618.

[6] Cacouris T, Rechtsteiner G, Conley W. Next-generation DUV light source technologies for 10 nm and below[J]. Proceedings of SPIE, 2017, 10147: 1014718.

[7] Cacouris T, Thornes J, Sells M, et al. Advanced light source technologies for memory and logic processes[J]. Proceedings of SPIE, 2018, 10587: 105870Y.

[8] Tanaka S, Tsushima H, Nakaike T, et al. GT40A: durable 45 W ArF injection-lock laser light source for dry/immersion lithography[J]. Proceedings of SPIE, 2006, 6154: 61542O.

[9] Miyamoto H, Kumazaki T, Tsushima H, et al. The ArF laser for the next generation multiple-patterning immersion lithography supporting green operations and leading edge processes[J]. Proceedings of SPIE, 2017, 10147: 1014719.

[10] 陈晓龙, 楼风光, 何宇, 等. 高效率全国产化10 kW光纤激光器[J]. 光学学报, 2019, 39(3): 0336001.

Chen X L, Lou F G, He Y, et al. Home-made 10 kW fiber laser with high efficiency[J]. Acta Optica Sinica, 2019, 39(3): 0336001.

[11] 刘晓东, 秦应雄, 柳洁, 等. 高功率激光大宽度矩形光束抛物带式积分镜研究[J]. 激光与光电子学进展, 2019, 56(19): 191403.

Liu X D, Qin Y X, Liu J, et al. Research on parabolic band integrating mirror for high-power large-width rectangular laser beams[J]. Laser & Optoelectronics Progress, 2019, 56(19): 191403.

[12] 朱能伟, 方晓东. 基于FLUENT的准分子激光器气体流场数值仿真[J]. 中国激光, 2016, 43(9): 0901007.

Zhu N W, Fang X D. FLUENT-based numerical simulation of gas flow field of excimer laser[J]. Chinese Journal of Lasers, 2016, 43(9): 0901007.

[13] 潘宁, 梁勖, 林颖, 等. 准分子激光系统中模拟信号的传输方法[J]. 红外与激光工程, 2019, 48(9): 0905003.

Pan N, Liang X, Lin Y, et al. Transmission method of analog signal in excimer laser system[J]. Infrared and Laser Engineering, 2019, 48(9): 0905003.

[14] 范元媛, 周翊, 刘广义, 等. 高效率ArF准分子激光复合腔技术研究[J]. 中国激光, 2016, 43(2): 0202001.

Fan Y Y, Zhou Y, Liu G Y, et al. Compound cavity ArF excimer laser with high efficiency[J]. Chinese Journal of Lasers, 2016, 43(2): 0202001.

[15] 刘斌, 丁金滨, 王魁波, 等. 高重复频率准分子激光器中放电冲击波特性的实验研究[J]. 中国激光, 2019, 46(12): 1201001.

Liu B, Ding J B, Wang K B, et al. Experimental study of characteristics of discharge shock waves in high-repetition-rate excimer lasers[J]. Chinese Journal of Lasers, 2019, 46(12): 1201001.

[16] 朱峰, 黄珂, 陶蒙蒙, 等. 重复频率HF激光脉冲能量稳定性的理论分析[J]. 光学学报, 2019, 39(4): 0414001.

Zhu F, Huang K, Tao M M, et al. Theoretical analysis of energy stability of repetitively pulsed HF laser[J]. Acta Optica Sinica, 2019, 39(4): 0414001.

[17] 王效顺, 梁勖, 游利兵, 等. 高重复频率ArF准分子激光器能量控制算法研究[J]. 激光技术, 2012, 36(6): 763-766.

Wang X S, Liang X, You L B, et al. Study on energy control algorithm for high-repetition-rate ArF excimer lasers[J]. Laser Technology, 2012, 36(6): 763-766.

[18] 赵读亮, 李文洁, 梁勖, 等. 准分子激光皮肤治疗仪能量稳定性研究[J]. 红外与激光工程, 2017, 46(12): 1206001.

Zhao D L, Li W J, Liang X, et al. Study on energy stability for excimer laser skin therapeutic apparatus[J]. Infrared and Laser Engineering, 2017, 46(12): 1206001.

[19] Sandstrom RL, Besaucele HA, Fomenkov IV, et al. 1999-12-21.

[20] Dayan P. Q-learning[J]. Machine Learning, 1992, 8(3/4): 279-292.

[21] Jacobs R A. Increased rates of convergence through learning rate adaptation[J]. Neural Networks, 1988, 1(4): 295-307.

[22] 黄友锐, 曲立国. PID控制器参数整定与实现[M]. 北京: 科学出版社, 2010.

Huang YR, Qu LG. PID controller parameter tuning and implementation[M]. Beijing: Science Press, 2010.

[23] Chiou J S, Tsai S H, Liu M T. A PSO-based adaptive fuzzy PID-controllers[J]. Simulation Modelling Practice and Theory, 2012, 26: 49-59.

2.3 基于强化学习的准分子激光器脉冲控制模型

3 实验结果分析

4 结论

孙泽旭, 冯泽斌, 周翊, 刘广义, 韩晓泉. 基于强化学习的准分子激光器能量控制算法研究[J]. 中国激光, 2020, 47(9): 0901002. Sun Zexu, Feng Zebin, Zhou Yi, Liu Guangyi, Han Xiaoquan. Energy Control of Excimer Laser Based on Reinforcement Learning[J]. Chinese Journal of Lasers, 2020, 47(9): 0901002.

基于强化学习的准分子激光器能量控制算法研究下载： 1010次

1 引言

2 仿真模型

2.1 准分子激光器能量仿真模型

图 1. 准分子激光器恒高压工作模式下单脉冲能量变化规律

Fig. 1. Single pulse energy change under constant high voltage working mode of excimer laser

图 2. 准分子激光器单脉冲能量仿真模型示意图

Fig. 2. Schematic of single pulse energy simulation model of excimer laser

图 3. 相同工作模式下实测和模型产生一个Burst的脉冲能量变化对比。(a)实测Burst脉冲能量;(b)模型Burst脉冲能量

Fig. 3. Comparison of Burst's pulse energy change measured and model under the same working mode. (a) Measured Burst pulse energy; (b) model Burst pulse energy

2.2 衡量能量的性能指标

2.3 基于强化学习的准分子激光器脉冲控制模型

图 4. 基于强化学习的准分子激光器控制系统

Fig. 4. Control system of excimer laser based on reinforcement learning

3 实验结果分析

表 2. 算法能量数据信息

Table 2. Algorithm energy data information

表 3. 动态稳定性数据

Table 3. Dynamic stability data

表 1. PI控制器参数变化范围

Table 1. Parameter range of PI controller

图 5. 出光能量值对比。(a) Z-N参数整定的PI算法;(b) PSO整定的PI算法;(c)基于强化学习的算法

Fig. 5. Comparison of light energy values. (a) Z-N parameter tuning PI algorithm; (b) PSO tuning PI algorithm; (c) algorithm based on reinforcement learning

图 6. 算法单脉冲能量直方图对比。(a) Z-N参数整定的PI算法;(b) PSO整定的PI算法;(c)基于强化学习的算法

Fig. 6. Comparison of algorithm single pulse energy histograms. (a) Z-N parameter tuning PI algorithm; (b) PSO tuning PI algorithm; (c) algorithm based on reinforcement learning

图 7. Burst能量稳定性对比图。(a) Z-N参数整定的PI算法;(b) PSO整定的PI算法;(c)基于强化学习的算法

Fig. 7. Comparison of Burst energy stability. (a) Z-N parameter tuning PI algorithm; (b) PSO tuning PI algorithm; (c) algorithm based on reinforcement learning

图 8. Burst剂量精度对比。(a)Z-N参数整定的PI算法;(b)PSO整定的PI算法;(c)基于强化学习的算法

Fig. 8. Comparison of Burst dose stability. (a) Z-N parameter tuning PI algorithm; (b) PSO tuning PI algorithm; (c) algorithm based on reinforcement learning

图 9. 动态稳定性对比。(a) Z-N参数整定的PI算法;(b) PSO整定的PI算法;(c)基于强化学习的算法

Fig. 9. Comparison of dynamic stability. (a) Z-N parameter tuning PI algorithm; (b) PSO tuning PI algorithm; (c) algorithm based on reinforcement learning

4 结论

Article Outline

关于本站 Cookie 的使用提示

全站搜索

基于强化学习的准分子激光器能量控制算法研究 下载： 1010次

1 引言

2 仿真模型

2.1 准分子激光器能量仿真模型

图 1. 准分子激光器恒高压工作模式下单脉冲能量变化规律

Fig. 1. Single pulse energy change under constant high voltage working mode of excimer laser

图 2. 准分子激光器单脉冲能量仿真模型示意图

Fig. 2. Schematic of single pulse energy simulation model of excimer laser

图 3. 相同工作模式下实测和模型产生一个Burst的脉冲能量变化对比。(a)实测Burst脉冲能量;(b)模型Burst脉冲能量

Fig. 3. Comparison of Burst's pulse energy change measured and model under the same working mode. (a) Measured Burst pulse energy; (b) model Burst pulse energy

2.2 衡量能量的性能指标

2.3 基于强化学习的准分子激光器脉冲控制模型

图 4. 基于强化学习的准分子激光器控制系统

Fig. 4. Control system of excimer laser based on reinforcement learning

3 实验结果分析

表 2. 算法能量数据信息

Table 2. Algorithm energy data information

表 3. 动态稳定性数据

Table 3. Dynamic stability data

表 1. PI控制器参数变化范围

Table 1. Parameter range of PI controller

图 5. 出光能量值对比。(a) Z-N参数整定的PI算法;(b) PSO整定的PI算法;(c)基于强化学习的算法

Fig. 5. Comparison of light energy values. (a) Z-N parameter tuning PI algorithm; (b) PSO tuning PI algorithm; (c) algorithm based on reinforcement learning

图 6. 算法单脉冲能量直方图对比。(a) Z-N参数整定的PI算法;(b) PSO整定的PI算法;(c)基于强化学习的算法

Fig. 6. Comparison of algorithm single pulse energy histograms. (a) Z-N parameter tuning PI algorithm; (b) PSO tuning PI algorithm; (c) algorithm based on reinforcement learning

图 7. Burst能量稳定性对比图。(a) Z-N参数整定的PI算法;(b) PSO整定的PI算法;(c)基于强化学习的算法

Fig. 7. Comparison of Burst energy stability. (a) Z-N parameter tuning PI algorithm; (b) PSO tuning PI algorithm; (c) algorithm based on reinforcement learning

图 8. Burst剂量精度对比。(a)Z-N参数整定的PI算法;(b)PSO整定的PI算法;(c)基于强化学习的算法

Fig. 8. Comparison of Burst dose stability. (a) Z-N parameter tuning PI algorithm; (b) PSO tuning PI algorithm; (c) algorithm based on reinforcement learning

图 9. 动态稳定性对比。(a) Z-N参数整定的PI算法;(b) PSO整定的PI算法;(c)基于强化学习的算法

Fig. 9. Comparison of dynamic stability. (a) Z-N parameter tuning PI algorithm; (b) PSO tuning PI algorithm; (c) algorithm based on reinforcement learning

4 结论

Article Outline

相关论文

相关资讯

关于本站 Cookie 的使用提示

全站搜索

基于强化学习的准分子激光器能量控制算法研究下载： 1010次