基于10.6 μm波长的小型化非线性全光衍射深度神经网络建模方法

孙一宸; 董明利; 于明鑫; 夏嘉斌; 张旭; 白雨晨; 鹿利单; 祝连庆

doi:doi:10.3788/LOP202158.0820001

激光与光电子学进展, 2021, 58 (8): 0820001, 网络出版: 2021-04-16

基于10.6 μm波长的小型化非线性全光衍射深度神经网络建模方法下载： 1058次

Modeling Method of Miniaturized Nonlinear All-Optical Diffraction Deep Neural Network Based on 10.6 μm Wavelength

论文大纲

孙一宸董明利 ^*于明鑫 ^**夏嘉斌张旭白雨晨鹿利单祝连庆

作者单位

北京信息科技大学光电测试技术及仪器教育部重点实验室, 北京 100192

AI 词云图 AI一句话精读 AI短摘要

注：本部分内容由 AI 自动生成，请您知悉。

摘要

提出了一种基于10.6 μm波长的小型化非线性全光衍射深度神经网络建模方法。采用波长为10.6 μm的二氧化碳(CO₂)激光光源,其对应的神经网络物理尺寸为1 mm×1 mm,依据相关的光学物理参数特性,构建了基于10.6 μm波长的非线性全光衍射深度神经网络模型框架,使用网格搜索法确定最优的神经网络模型超参数,并选择交叉熵损失函数和Adam优化器对神经网络进行了优化。分别在MNIST手写数字数据集和Fashion-MNIST数据集上对该方法进行了测试,其分类结果分别达到了0.9630和0.8743。所提方法为制备小型化的全光衍射光栅提供了理论参考。

Abstract

One method used for modeling a miniaturized nonlinear all-optical diffraction deep neural network based on 10.6 μm wavelength is proposed. First, a carbon dioxide (CO₂) laser light source with a wavelength of 10.6 μm is used, and the corresponding physical size of the neural network is 1 mm×1 mm. Second, the model framework of the nonlinear all-optical diffraction deep neural network based on 10.6 μm wavelength is constructed according to the characteristics of relevant optical physical parameters. Finally, the grid search method is used to determine the hyper-parameters of the optimal neural network model, and the cross entropy loss function and the Adam optimizer are selected to optimize the neural network. The proposed method is tested on the MNIST handwritten digital dataset and the Fashion-MNIST dataset, respectively, and the classification results reach 0.9630 and 0.8743, respectively. The proposed method provides theoretical reference for the preparation of miniaturized all-optical diffraction gratings.

1 引言

深度学习在图像分类^[1]、自然语言处理^[2]和语音识别^[3]等方面取得了一定的成功。深度神经网络具有增强模型表达的能力^[4]。相比于数字实现的神经网络,光计算具有高带宽、高速计算、固有的并行性和低功耗等优势。LED阵列的Hopfield网络^[5]、光电实现的储备池计算^[6-10]、含有微米共振器的尖峰循环网络^[11-12]以及利用马赫-曾德尔干涉仪(MZI)的前馈神经网络^[13]等统称为光神经网络(Optical Neural Network, ONN)。光神经网络具有并行处理、高密度布线以及可直接处理图像等独特的优势^[14],它可由空间光互连和波导光互连实现。

在光神经网络研究中, Lin等^[15-16]通过芯片将神经网络应用于现实世界,该芯片依靠光的传播实现几乎零消耗和零延迟的深度学习,即全光衍射深度神经网络(all-optical diffraction deep neural network, D²NN)。该结构的物理模型由输入层、5个隐藏层和输出层组成。输入层由太赫兹波段光源进行照明,输入表面的相位或者振幅以编码光信息。入射光束在输入层衍射后,隐藏层对光束的相位或者振幅进行调制。输出层的光电检测器阵列检测输出光的强度,并根据10个不同区域中的光强差异来识别手写数字。通过更新的相位对衍射光栅进行建模,并以3D打印的方式制作衍射光栅。2019年,研究者提出了一种基于上述架构的宽带衍射神经网络^[17]。该模型对光源的要求不再局限于单色相干光,且拓展了此框架的应用范围。然而,这两种方案存在一定的缺陷:1)太赫兹光源价格昂贵;2)衍射光栅尺寸过大而不利于集成。本课题组使用一种衍射光栅代替3D打印的衍射光栅^[18-19],由于使用了二氧化碳(CO₂)激光器发射10.6 μm的红外激光和HgCdTe检测阵列器,每个神经元的尺寸可以缩小至5 μm,因此1 mm×1 mm的衍射光栅包含200×200个神经元。选择10.6 μm作为波长可节约成本,整个衍射光栅是以锗为基底,且锗的工作波长为10.6 μm,这种小型集成化的衍射光栅获得了更广泛的应用。然而,之前的工作中并未考虑模型的非线性效应。

非线性激活函数通过学习输入与输出之间的复杂映射,在神经网络模型中起着至关重要的作用。如果神经网络中没有激活函数,无论有多少神经网络,输出都是输入的线性组合,非线性拟合能力较弱。目前,非线性激活函数主要包括Sigmoid、Tanh、ReLU等。其中,ReLU具有以下三个优势:1)解决梯度爆炸和梯度消失的问题;2)加速收敛;3)使得一些神经元的输出为0,从而导致网络的稀疏。ReLU激活函数的改进函数包括Leaky ReLU、PReLU、RReLU等。这些函数提高了分类的速度和正确率。ReLU激活函数允许网络本身引入稀疏性。该方法相当于无监督学习的预训练,大大缩短了学习周期。

本文提出了一种基于10.6 μm波长的非线性全光衍射深度神经网络建模方法,相比于文献[ 15-16],将神经网络的物理尺寸缩小了1/80,进一步提高了神经网络的非线性表征能力,并在仿真状态下验证了该模型的分类正确率。研究结果为微米波长的非线性全光衍射深度神经网络模型框架的研究提供了理论依据,为进一步实现大规模集成化、小型化光子计算芯片提供了参考。

2 非线性全光衍射深度神经网络

2.1 MNIST数据集和Fashion-MNIST数据集

MNIST数据集是由数字0~9组成的手写数字数据集,如图1(a)所示。该数据集由四部分组成:训练集图像、训练集标签、测试集图像和测试集标签。MNIST数据集来自美国国家标准与技术研究院(NIST)。训练集和测试集均是由两个数据库混合组成的手写数字组成,其中一个数据库来自高中生,另一个数据库来自人口普查局。MNIST手写数据集是由包含60000个示例的训练集和10000个示例的测试集组成。MNIST数据集中的每张图片都是由28×28个像素点组成,数字均被归一化且以固定方式居中。

图 1. 数据集示例。(a) MNIST数据集;(b) Fashion-MNIST数据集

Fig. 1. Dataset examples. (a) MNIST dataset; (b) Fashion-MNIST dataset

下载图片查看所有图片

Fashion-MNIST数据集是一种代替MNIST手写数字集的分类服饰数据集,具有和MNIST数据集同样的特征,即包含60000张训练图像和标签及10000张测试图像和标签,每张图像的分辨率为28 pixel×28 pixel等。相比于MNIST数据集,Fashion-MNIST数据集不再是抽象的数字符号,而是更加具体化的服饰类型,如图1(b)所示。Fashion-MNIST数据集中每个训练样本和测试样本都按照表1中的种类进行标注。

表 1. Fashion-MNIST数据集中的标签号码和种类

Table 1. Label numbers and categories in Fashion-MNIST dataset

Label number	Category
0	T-shirt
1	Trousers
2	Pullover
3	Dress
4	Coat
5	Sandal
6	Shirt
7	Sneaker
8	Bag
9	Ankle boot

查看所有表

2.2 网络模型

图2(a)所示为物理系统模型,图2(b)所示为光路模型。系统采用波长为10.6 μm的CO₂激光器作为光源,激光通过基于输入数据制作的模板后照射到衍射光栅上,经过多层衍射光栅的衍射后在探测器平面形成结果图像,探测器接收到的结果图像即为输入数据的分类结果。通过每个光栅的光经不同厚度的光栅像元调制后,再由次级光栅上的所有光栅像元接收。这种网络连接方式类似于全连接神经网络,第一层光栅接收图像,经过中间多层光栅后到达检测平面。在神经网络中,第一层光栅相当于输入层,中间层光栅相当于隐藏层,检测平面相当于输出层。输入光的相位调制效应随着光栅高度的变化而变化,在神经网络中对应着不同的权重,如图2(c)所示。

图 2. 非线性全光衍射深度神经网络的结构示意图。(a)系统物理模型;(b)光路模型;(c)神经网络模型

Fig. 2. Structural diagrams of nonlinear all-optical diffraction deep neural network. (a) Physical model of system; (b) optical path model; (c) neural network model

下载图片查看所有图片

根据Rayleigh-Sommerfeld衍射方程,非线性全光衍射深度神经网络中每层衍射光栅的神经元可由次级波方程^[20-21]进行计算 :

w_{i}^{l} (x, y, z) = \frac{z - z_{i}}{r_{2}} (\frac{1}{2 π r} + \frac{1}{j λ}) \exp (\frac{j 2 π r}{λ}), (1)

式中:w为神经网络层中的神经元;(x,y,z)为该神经元在神经网络层的位置坐标;l表示网络的第l层;i表示第l层的第i个神经元,且坐标位置为(x_i,y_i,z_i);r= $\sqrt[]{(x - x_{i})^{2} + (y - y_{i})^{2} + (z - z_{i})^{2}}$ 表示第l层节点i与第l+1层节点的欧氏距离;λ为入射波长。

光在衍射光栅之间的前向传播过程可表示为

\{\begin{array}{l} n_{i, p}^{l} = w_{i, p}^{l} \cdot g \\ m_{i}^{l} = \sum_{k} n_{k, i}^{l - 1} \\ t_{i}^{l} = a_{i}^{l} \exp (j φ_{i}^{l}) \\ g = φ_{i}^{l} (m_{i}^{l} \cdot t_{i}^{l}) \end{array}, (2)

式中: $n_{i, p}^{l}$ 表示位于(x,y,z)的第l层第i个神经元的输出; p为下一层的一个神经元,通过光学衍射与神经元i相连; $m_{i}^{l}$ 表示第l-1层第k个神经元的输出总和; $t_{i}^{l}$ 为复调制; $|A|$ = $a_{i}^{l}$ (x_i,y_i,z_i)为二次波的相对幅值,对于只有相位的全光衍射深度神经网络结构,将振幅 $|A|$ 视为常数,忽略光损耗,理想状态为1;j $φ_{i}^{l}$ 为每个神经元上输入波 $\sum_{k} n_{k}^{l - 1} (x_{i}, y_{i}, z_{i})$ 和复值神经元调制函数 $t_{i}^{l}$ 所增加的相位延迟; $φ_{i}^{l}$ ( $m_{i}^{l}$ · $t_{i}^{l}$ )表示神经网络中的非线性激活函数,其作用是经过调制后的二次波神经元通过非线性单元传输到下一层,g表示经过激活函数的输出值。

相比于文献[ 15-16],本文在基于微米波长的非线性全光衍射深度神经网络模型中加入了非线性激活函数 $φ_{i}^{l}$ ( $m_{i}^{l}$ · $t_{i}^{l}$ ),以提高神经网络模型的非线性拟合能力和泛化能力。ReLU激活函数具有计算速度、收敛速度快等优势,并出现了ReLU改进函数,如Leaky-ReLU、PReLU和RReLU^[22-24]等。模型中三种ReLU改进函数与 $φ_{i}^{l}$ ( $m_{i}^{l}$ · $t_{i}^{l}$ )的关系为

\begin{array}{l} φ_{L} (m_{i}^{l} \cdot t_{i}^{l}) = \{\begin{array}{l} m_{i}^{l} \cdot t_{i}^{l}, & m_{i}^{l} \cdot t_{i}^{l} \geq 0 \\ a_{1} m_{i}^{l} \cdot t_{i}^{l}, & m_{i}^{l} \cdot t_{i}^{l} < 0 \end{array}, (3) \\ φ_{P} (m_{i}^{l} \cdot t_{i}^{l}) = \{\begin{array}{l} m_{i}^{l} \cdot t_{i}^{l}, & m_{i}^{l} \cdot t_{i}^{l} \geq 0 \\ a_{2} m_{i}^{l} \cdot t_{i}^{l}, & m_{i}^{l} \cdot t_{i}^{l} < 0 \end{array}, (4) \\ φ_{R} (m_{i}^{l} \cdot t_{i}^{l}) = \{\begin{array}{l} m_{i}^{l} \cdot t_{i}^{l}, & m_{i}^{l} \cdot t_{i}^{l} \geq 0 \\ a_{3} m_{i}^{l} \cdot t_{i}^{l}, & m_{i}^{l} \cdot t_{i}^{l} < 0 \end{array}, (5) \end{array}

式中:φ_L( $m_{i}^{l}$ · $t_{i}^{l}$ )和φ_P( $m_{i}^{l}$ · $t_{i}^{l}$ )分别表示模型中的激活函数Leaky-ReLU和PReLU,在Leaky-ReLU中a₁表示一个很小的固定常数,而在PReLU中a₂表示随模型数据变化的常数;φ_R( $m_{i}^{l}$ · $t_{i}^{l}$ )表示模型中的激活函数RReLU, 在RReLU中a₃表示在(0,1)范围中随机选取的常数。不同激活函数的数学模型如图3所示。

图 3. 不同激活函数的数学模型。(a) Leaky-ReLU和PReLU;(b) RReLU

Fig. 3. Mathematical models of different activation functions. (a) Leaky-ReLU and PReLU; (b) RReLU

下载图片查看所有图片

2.3 模型训练

输入光在经过多层光栅的衍射之后会在探测平面输出一幅结果图像,探测器对结果图像中的探测区域进行探测以得到网络分类结果。因此需要在参数训练阶段对数据标签进行处理,设计不同标签以对应结果图像中的标志。如图4所示,通过判断结果图像中探测区域内光强最大的区域即可得到结果图像所表征的标签。

图 4. 图像标签设计

Fig. 4. Image label design

下载图片查看所有图片

对于包含N个隐藏层的非线性全光衍射深度神经网络,其输出层的光强可以表示为

I_{i}^{N + 1} = {|m_{i}^{N + 1}|}^{2} 。 (6)

对探测器在输出平面测量的强度进行归一化处理,使它们位于每个样本的(0,9)区间,用I_l表示入射到输出层第l个探测器上的光信号总量,则归一化强度I'_l为

I'_{l} = \frac{I_{l}}{\max {I_{l}}} \times 10 。 (7)

将非线性全光衍射深度神经网络的输出结果与输入值进行对比,使用误差反向传播对光栅参数进行迭代,并根据目标特性对非线性全光衍射深度神经网络的输出定义损失函数,使用交叉熵函数作为神经网络中的损失函数。交叉熵函数为

H (p, q) = - \overset{K}{\sum_{l}} p_{i}^{l} (x) \ln q_{i}^{l} (x), (8)

式中: $p_{i}^{l} (x) = \frac{e^{I'}}{\overset{K}{\sum_{l}} e^{I'}}$ 表示神经网络中Softmax层的输出值,Softmax回归可以看作是学习算法优化的分类结果;K为分类图像标签总数; $q_{i}^{l}$ (x)表示实际图像的输出值;e^I'表示输出平面的归一化强度。为了将非线性全光衍射深度神经网络模型训练成数字分类器,采用MNIST手写数字数据集作为输入层。

图5表示各层衍射光栅的输出图像,最后一层光栅的输出图像即为最终的结果图像。为了判断结果图像的正确性,首先除去探测区域对背景信息的影响,然后使用探测区域模板对结果图像进行提取,以得到预测标签。本文的输入图像以MNIST数据集中数字7为例,入射光经过输入光栅和各层光栅L1~L6衍射后,得到的最后一层光栅结果图像中光强最大的区域与图4中探测区域标签7的位置一致。

图 5. 训练完成后各层光栅的输出图像

Fig. 5. Output image of each layer of grating after training

下载图片查看所有图片

3 实验结果

3.1 评估方法

在仿真过程中,在MNIST数据集和Fashion-MNIST数据集中分别选取55000张图像和5000张图像作为训练集和验证集,剩下的10000张保留给测试集。采用混淆矩阵作为评估方法。首先,需要对混淆矩阵C_i'(i'=0~9)进行计算。对于每一个单类,评估由T_i'、F_i'、N_i'和P_i'定义,分类器的正确率可以表示为

A = \frac{T_{i'} + N_{i'}}{T_{i'} + N_{i'} + P_{i'} + F_{i'}}, (9)

式中:T_i'表示混淆矩阵C_i'中真实值为真且模型预测为真的数量;N_i'表示混淆矩阵C_i'中真实值为假且模型预测为假的数量;P_i'表示混淆矩阵C_i'中真实值为假而模型预测为真的数量;F_i' 表示混淆矩阵C_i'中真实值为真而模型预测为假的数量。

3.2 模型超参数优化结果

全光衍射深度神经网络模型中的超参数包括光栅物理参数和神经网络训练参数。入射波长、光栅像元尺寸和光栅间距属于光栅参数;光栅层数、光栅像元规模、每批数据量、循环次数和学习率属于训练参数。其中,确定入射波长(λ)为10.6 μm,神经元尺寸为5 mm。基于微米波长的全光衍射深度神经网络模型识别MNIST数据集的超参数选择如表2和表3所示。

表 2. MNIST数据集中神经网络光栅的物理参数

Table 2. Physical parameters of neural network grating in MNIST dataset

Grating parameter	Value
Wavelength	10.6 μm
Cell size	5 μm
Grating spacing	70λ

查看所有表

表 3. MNIST数据集中神经网络的训练参数

Table 3. Neural network training parameters in MNIST dataset

Training parameter	Value
Number of grating layers	6
Number of neurons per layer	60×60
Batch size	100
Epoch	50
Learning rate	10^-2

查看所有表

使用网格搜索法对神经网络的超参数进行选择,首先对光栅层数进行选择。在仿真状态下,选择网络模型中的每批数据量为100,为了减少仿真时间,循环次数为10,损失函数为交叉熵函数,优化器为Adam优化器,学习率选择为0.01。由图6可知,当光栅层数≤5时,随着光栅层数的增加,神经网络模型的分类正确率增加;当光栅层数>5时,分类正确率达到饱和。考虑到物理实现和工艺精度,光栅层数选择6。

图 6. MNIST数据集中不同光栅层数对应的分类正确率

Fig. 6. Classification accuracy corresponding to each number of grating layers in MNIST dataset

下载图片查看所有图片

确定神经网络模型中的光栅层数后,对模型训练参数中的像元规模和衍射光栅间距等进行优化。不同像元规模和衍射光栅间距对应的分类正确率如表4所示。

表 4. 不同像元规模和衍射光栅间距对应的MNIST数据集分类正确率

Table 4. Classification accuracy of MNIST dataset corresponding to each pixel size and diffraction grating spacing

Spacing	Pixel size of 30×30	Pixel size of 40×40	Pixel size of 50×50	Pixel size of 60×60	Pixel size of 70×70
30λ	0.8427	0.8642	0.8736	0.8694	0.8664
40λ	0.8218	0.8623	0.8707	0.8744	0.8667
50λ	0.7545	0.8614	0.8594	0.8759	0.8712
60λ	0.6499	0.8327	0.8710	0.8714	0.8741
70λ	0.6190	0.8304	0.8683	0.8765	0.8696

查看所有表

由表4可知,当神经网络模型中的衍射光栅间距一定时,分类正确率一般随着像元规模的增大而升高;当神经网络模型中的像元规模≤50×50时,分类正确率随着光栅间距的增加而减小,当像元规模>50×50时,分类正确率维持恒定。其中,当像元规模为60×60,衍射光栅间距为70λ时,神经网络的分类正确率最高。

基于微米波长的全光衍射深度神经网络模型识别Fashion-MNIST数据集的超参数选择方式与上述方法一致,参数如表5和表6所示。

表 5. Fashion-MNIST数据集中神经网络光栅的物理参数

Table 5. Physical parameters of neural network grating in Fashion-MNIST dataset

Grating parameter	Value
Wavelength	10.6 μm
Cell size	5 μm
Grating spacing	30λ

查看所有表

表 6. Fashion-MNIST数据集中神经网络的训练参数

Table 6. Neural network training parameters in Fashion-MNIST dataset

Training parameter	Value
Number of grating layers	6
Number of neurons per layer	70×70
Batch size	100
Epoch	50
Learning rate	10^-2

查看所有表

利用网格搜索法对超参数进行优化,光栅层数的优化选择如图7所示,因此光栅层数选择6。然后对模型训练参数中的像元规模和衍射光栅间距等进行优化。不同像元规模和衍射光栅间距对应的分类正确率如表7所示,因此选择像元规模为70×70,衍射光栅间距为30λ。

图 7. Fashion-MNIST数据集中不同光栅层数对应的分类正确率

Fig. 7. Classification accuracy of Fashion-MNIST dataset corresponding to each number of grating layers in Fashion-MNIST dataset

下载图片查看所有图片

表 7. 不同像元规模和衍射光栅间距对应的Fashion-MNIST数据集分类正确率

Table 7. Classification accuracy of Fashion-MNIST dataset corresponding to each pixel size and diffraction grating spacing

Spacing	Pixel size of 30×30	Pixel size of 40×40	Pixel size of 50×50	Pixel size of 60×60	Pixel size of 70×70
30λ	0.7012	0.7797	0.7943	0.7969	0.7994
40λ	0.6569	0.7539	0.7882	0.7903	0.7947
50λ	0.6137	0.7419	0.7664	0.7849	0.7937
60λ	0.6098	0.7411	0.7574	0.7831	0.7935
70λ	0.6069	0.7246	0.7539	0.7735	0.7809

查看所有表

3.3 全光衍射深度神经网络的性能评估

在基于微米波长的标准全光衍射深度神经网络模型中未加入激活函数的情况下,MNIST数据集的分类结果如图8所示,仿真得到的MNIST数据集的分类正确率为0.8678。

图 8. 标准全光衍射深度神经网络对MNIST数据集的分类结果。(a)分类正确率;(b)混淆矩阵

Fig. 8. Classification results of MNIST dataset by standard all-optical diffraction deep neural network. (a) Classification accuracy; (b) confusion matrix

下载图片查看所有图片

由图8可知,标准全光衍射深度神经网络模型对MNIST数据集中各个数字的分类正确率并不相同,模型对数字1的分类正确率高达0.98;然而,模型对数学8和数字9的分类正确率分别为0.73和0.81。其中,将数字8误分为数字3和数字5的概率为0.05,误分为数字0、4和7的概率为0.03;将数字9误分为数字4的概率为0.07,误分为数字7的概率为0.05。

在基于微米波长的标准全光衍射深度神经网络模型中未加入激活函数的情况下,Fashion-MNIST数据集的分类结果如图9所示,仿真得到的Fashion-MNIST数据集的分类正确率为0.8110。

图 9. 标准全光衍射深度神经网络对Fashion-MNIST数据集的分类结果。(a)分类正确率;(b)混淆矩阵

Fig. 9. Classification results of Fashion-MNIST dataset by standard all-optical diffraction deep neural network. (a) Classification accuracy; (b) confusion matrix

下载图片查看所有图片

由图9可知,标准全光衍射深度神经网络模型对Fashion-MNIST数据集中各个数字的分类正确率并不相同,模型对标签1和标签8的分类正确率最高,分别为0.94和0.95;然而,模型对标签6的分类正确率仅为0.35。其中,将标签6误分为标签0的概率高达0.23,误分为标签2的概率为0.14。由此可知,未加入激活函数的标准全光衍射深度神经网络模型的非线性拟合能力和泛化能力较弱。

3.4 非线性全光衍射深度神经网络的性能评估

在传统全光衍射深度神经网络模型的基础上,选择Leaky-ReLU、PReLU、RReLU函数作为模型的激活函数,将模型对MNIST数据集的分类正确率与传统全光衍射深度神经网络模型的结果进行对比。仿真得到的MNIST数据集的分类正确率如表8所示。

表 8. 具有不同激活函数的非线性全光衍射深度神经网络对MNIST数据集的分类正确率

Table 8. Classification accuracies of MNIST dataset by nonlinear all-optical diffraction deep neural networks with different activation functions

Activation function	Accuracy
Leaky-ReLU	0.9609
PReLU	0.9628
RReLU	0.9630

查看所有表

可以看出,具有RReLU函数的神经网络具有0.9630的分类正确率,与文献[ 15-16]的结果相比,基于微米波长的非线性全光衍射深度神经网络模型在特征尺寸缩小1/80的前提下,分类正确率仅相差0.01,理论证明了模型的正确性。图10为具有不同激活函数的全光衍射深度神经网络对MNIST数据集的分类正确率和混淆矩阵图像。

由图10可知,具有三种激活函数的神经网络对MNIST数据集中每个数字的分类正确率均在0.94以上。其中,具有三种激活函数的模型对数字0、1的识别正确率均高达0.99;然而,模型对数字5和数字9的分类能力稍差,正确率分别为0.95(Leaky-ReLU)、0.95(PReLU)、0.94(RReLU)和0.94(Leaky-ReLU)、0.95(PReLU)、0.95(RReLU)。

图 10. 具有不同激活函数的全光衍射深度神经网络对MNIST数据集的分类正确率和混淆矩阵。(a)(b) Leaky-ReLU;(c)(d) PReLU;(e)(f) RReLU

Fig. 10. Classification accuracies and confusion matrixes of MNIST dataset by all-optical diffraction deep neural networks with different activation functions. (a)(b) Leaky-ReLU; (c)(d) PReLU; (e)(f) RReLU

下载图片查看所有图片

相比于标准的全光衍射深度神经网络,分类正确率有很大的提高。例如数字8,具有三种激活函数的神经网络的分类正确率最高提升了0.23。图11为各种神经网络模型对MNIST数据集中各个数字的识别正确率。

在对Fashion-MNIST数据集进行分类时,选择与上述相同的非线性激活函数,并将模型对Fashion-MNIST数据集的分类正确率与传统全光衍射深度神经网络模型的结果进行对比。仿真得到的Fashion-MNIST数据集分类正确率如表9所示。

图 11. 各种全光衍射深度神经网络模型对MNIST数据集中各个数字的识别正确率

Fig. 11. Recognition accuracy of each number in MNIST dataset by each all-optical diffraction deep neural network model

下载图片查看所有图片

表 9. 具有不同激活函数的非线性全光衍射深度神经网络对Fashion-MNIST数据集的分类正确率

Table 9. Classification accuracies of Fashion-MNIST dataset by nonlinear all-optical diffraction deep neural networks with different activation functions

Activation function	Accuracy
Leaky-ReLU	0.8717
PReLU	0.8736
RReLU	0.8743

查看所有表

加入RReLU激活函数后,分类正确率为0.8743。与文献[ 15-16]的结果相比,分类正确率仅相差0.02,理论证明了模型的正确性。图12为具有不同激活函数的全光衍射深度神经网络对Fashion-MNIST数据集的分类正确率和混淆矩阵图像。

图 12. 具有不同激活函数的全光衍射深度神经网络对Fashion-MNIST数据集的分类正确率和混淆矩阵。(a)(b) Leaky-ReLU;(c)(d) PReLU;(e)(f) RReLU

Fig. 12. Classification accuracies and confusion matrixes of Fashion-MNIST dataset by all-optical diffraction deep neural networks with different activation functions. (a)(b) Leaky-ReLU; (c)(d) PReLU; (e)(f) RReLU

下载图片查看所有图片

由图12可知,具有三种激活函数的模型对标签7和标签8的识别正确率分别为0.95(Leaky-ReLU)、0.97(PReLU)、0.97(RReLU)和0.98(Leaky-ReLU)、0.96(PReLU)、0.97(RReLU);然而,模型对标签6的分类能力稍差,正确率分别为0.58、0.66和0.62。相比于标准的全光衍射深度神经网络,分类正确率有很大提高。例如标签6,具有三种激活函数的神经网络的分类正确率最高提升了0.31。图13为各种神经网络模型对MNIST数据集中各个数字的识别正确率。

图 13. 各种全光衍射深度神经网络模型对Fashion-MNIST数据集中各个数字的识别正确率

Fig. 13. Recognition accuracy of each number in Fashion-MNIST dataset by each all-optical diffraction deep neural network model

下载图片查看所有图片

4 结论

提出了一种基于微米波长光源的非线性全光衍射深度神经网络的实现方案,通过前向传播计算神经网络输出及误差反向传播优化参数,建立了非线性全光衍射深度神经网络模型结构,针对MNIST数据集和Fashion-MNIST数据集的分类任务,对神经网络的超参数进行了优化。仿真结果表明,加入RReLU函数的非线性全光衍射深度神经网络对MNIST数据集和Fashion-MNIST数据集的分类正确率分别达到0.9630和0.8743。在后续工作中将对神经网络模型进行进一步优化,以期为实现小型化微米波长的非线性全光衍射深度神经网络物理系统提供理论依据。

参考文献

[1] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.

[2] ChoK, Merrienboer BV, GulcehreC, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[EB/OL]. (2014-06-03)[2020-09-02]. https://arxiv.org/abs/1406.1078.

[3] GravesA, Mohamed AR, HintonG. Speech recognition with deep recurrent neural networks[C] //2013 IEEE International Conference on Acoustics, Speech and Signal Processing, May 26-31, 2013, Vancouver, BC, Canada. New York: IEEE, 2013: 6645- 6649.

[4] Le Cun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.

[5] Farhat N H, Psaltis D, Prata A, et al. Optical implementation of the Hopfield model[J]. Applied Optics, 1985, 24(10): 1469.

[6] Paquot Y, Duport F, Smerieri A, et al. Optoelectronic reservoir computing[J]. Scientific Reports, 2012, 2: 287.

[7] Appeltant L, Soriano M C, Van der Sande G, et al. Information processing using a single dynamical node as complex system[J]. Nature Communications, 2011, 2: 468.

[8] 周治平, 许鹏飞, 董晓文. 硅基光电计算[J]. 中国激光, 2020, 47(6): 0600001.

Zhou Z P, Xu P F, Dong X W. Computing on silicon photonic platform[J]. Chinese Journal of Lasers, 2020, 47(6): 0600001.

[9] 张波, 和挺, 钟良, 等. 基于有机光电材料的太赫兹波调制器件研究进展[J]. 中国激光, 2019, 46(6): 0614012.

Zhang B, He T, Zhong L, et al. Recent progress of terahertz wave modulator based on organic photoelectric materials[J]. Chinese Journal of Lasers, 2019, 46(6): 0614012.

[10] 张依宁, 徐艾诗, 冯玉玲, 等. 光电反馈半导体激光器输出光的混沌特性[J]. 光学学报, 2020, 40(12): 1214001.

Zhang Y N, Xu A S, Feng Y L, et al. Chaos characteristics of the output from a semiconductor laser subject to optoelectronic feedback[J]. Acta Optica Sinica, 2020, 40(12): 1214001.

[11] Tait A N, de Lima T F, Zhou E, et al. Neuromorphic photonic networks using silicon photonic weight banks[J]. Scientific Reports, 2017, 7(1): 7430.

[12] Tait A N, Nahmias M A, Shastri B J, et al. Broadcast and weight: an integrated network for scalable photonic spike processing[J]. Journal of Lightwave Technology, 2014, 32(21): 4029-4041.

[13] Shen Y C, Harris N C, Skirlo S, et al. Deep learning with coherent nanophotonic circuits[J]. Nature Photonics, 2017, 11(7): 441-446.

[14] 陈宏伟, 于振明, 张天, 等. 光子神经网络发展与挑战[J]. 中国激光, 2020, 47(5): 0500004.

Chen H W, Yu Z M, Zhang T, et al. Advances and challenges of optical neural networks[J]. Chinese Journal of Lasers, 2020, 47(5): 0500004.

[15] Lin X, Rivenson Y, Yardimci N T, et al. All-optical machine learning using diffractive deep neural networks[J]. Science, 2018, 361(6406): 1004-1008.

[16] Mengu D, Luo Y, Rivenson Y, et al. Analysis of diffractive optical neural networks and their integration with electronic neural networks[J]. IEEE Journal of Selected Topics in Quantum Electronics, 2020, 26(1): 1-14.

[17] Luo Y, Mengu D, Yardimci N T, et al. Design of task-specific optical systems using broadband diffractive neural networks[J]. Light, Science & Applications, 2019, 8: 112.

[18] Lu L D, Zhu L Q, Zhang Q K, et al. Miniaturized diffraction grating design and processing for deep neural network[J]. IEEE Photonics Technology Letters, 2019, 31(24): 1952-1955.

[19] 牛海莎, 于明鑫, 祝博飞, 等. 基于10.6微米全光深度神经网络衍射光栅的设计与实现[J]. 红外与毫米波学报, 2020, 39(1): 13-18.

Niu H S, Yu M X, Zhu B F, et al. Design and implementation of diffraction grating based on 10.6 μm all-optical depth neural network[J]. Journal of Infrared and Millimeter Waves, 2020, 39(1): 13-18.

[20] Bianchi V, Carey T, Viti L, et al. Terahertz saturable absorbers from liquid phase exfoliation of graphite[J]. Nature Communications, 2017, 8: 15763.

[21] Goodman JW. Introduction to Fourier optics[M]. New York: McGraw-Hill Companies, 2005.

[22] NairV, Hinton GE. Rectified linear units improve restricted Boltzmann machines[EB/OL]. (2010-06-05)[2020-09-02]. https://dl.acm.org/doi/10.5555/3104322.3104425.

[23] Maas AL, Hannun AY, Ng AY. Rectifier nonlinearities improve neural network acoustic models[EB/OL]. [2020-09-02]. http://ai.stanford.edu/~amaas/papers/relu_hybrid_icml2013_final.pdf.

[24] He KM, Zhang XY, Ren SQ, et al. Delving deep into rectifiers: surpassing human-level performance on ImageNet classification[C] //2015 IEEE International Conference on Computer Vision (ICCV), December 7-13, 2015, Santiago, Chile. New York: IEEE, 2015: 1026- 1034.

1 引言

2 非线性全光衍射深度神经网络

2.1 MNIST数据集和Fashion-MNIST数据集

3.4 非线性全光衍射深度神经网络的性能评估

4 结论

孙一宸, 董明利, 于明鑫, 夏嘉斌, 张旭, 白雨晨, 鹿利单, 祝连庆. 基于10.6 μm波长的小型化非线性全光衍射深度神经网络建模方法[J]. 激光与光电子学进展, 2021, 58(8): 0820001. Yichen Sun, Mingli Dong, Mingxin Yu, Jiabin Xia, Xu Zhang, Yuchen Bai, Lidan Lu, Lianqing Zhu. Modeling Method of Miniaturized Nonlinear All-Optical Diffraction Deep Neural Network Based on 10.6 μm Wavelength[J]. Laser & Optoelectronics Progress, 2021, 58(8): 0820001.

基于10.6 μm波长的小型化非线性全光衍射深度神经网络建模方法 下载： 1058次

1 引言

2 非线性全光衍射深度神经网络

2.1 MNIST数据集和Fashion-MNIST数据集

图 1. 数据集示例。(a) MNIST数据集;(b) Fashion-MNIST数据集

Fig. 1. Dataset examples. (a) MNIST dataset; (b) Fashion-MNIST dataset

表 1. Fashion-MNIST数据集中的标签号码和种类

Table 1. Label numbers and categories in Fashion-MNIST dataset

2.2 网络模型

图 2. 非线性全光衍射深度神经网络的结构示意图。(a)系统物理模型;(b)光路模型;(c)神经网络模型

Fig. 2. Structural diagrams of nonlinear all-optical diffraction deep neural network. (a) Physical model of system; (b) optical path model; (c) neural network model

图 3. 不同激活函数的数学模型。(a) Leaky-ReLU和PReLU;(b) RReLU

Fig. 3. Mathematical models of different activation functions. (a) Leaky-ReLU and PReLU; (b) RReLU

2.3 模型训练

图 4. 图像标签设计

Fig. 4. Image label design

图 5. 训练完成后各层光栅的输出图像

Fig. 5. Output image of each layer of grating after training

3 实验结果

3.1 评估方法

3.2 模型超参数优化结果

表 2. MNIST数据集中神经网络光栅的物理参数

Table 2. Physical parameters of neural network grating in MNIST dataset

表 3. MNIST数据集中神经网络的训练参数

Table 3. Neural network training parameters in MNIST dataset

图 6. MNIST数据集中不同光栅层数对应的分类正确率

Fig. 6. Classification accuracy corresponding to each number of grating layers in MNIST dataset

表 4. 不同像元规模和衍射光栅间距对应的MNIST数据集分类正确率

Table 4. Classification accuracy of MNIST dataset corresponding to each pixel size and diffraction grating spacing

表 5. Fashion-MNIST数据集中神经网络光栅的物理参数

Table 5. Physical parameters of neural network grating in Fashion-MNIST dataset

表 6. Fashion-MNIST数据集中神经网络的训练参数

Table 6. Neural network training parameters in Fashion-MNIST dataset

图 7. Fashion-MNIST数据集中不同光栅层数对应的分类正确率

Fig. 7. Classification accuracy of Fashion-MNIST dataset corresponding to each number of grating layers in Fashion-MNIST dataset

表 7. 不同像元规模和衍射光栅间距对应的Fashion-MNIST数据集分类正确率

Table 7. Classification accuracy of Fashion-MNIST dataset corresponding to each pixel size and diffraction grating spacing

3.3 全光衍射深度神经网络的性能评估

图 8. 标准全光衍射深度神经网络对MNIST数据集的分类结果。(a)分类正确率;(b)混淆矩阵

Fig. 8. Classification results of MNIST dataset by standard all-optical diffraction deep neural network. (a) Classification accuracy; (b) confusion matrix

图 9. 标准全光衍射深度神经网络对Fashion-MNIST数据集的分类结果。(a)分类正确率;(b)混淆矩阵

Fig. 9. Classification results of Fashion-MNIST dataset by standard all-optical diffraction deep neural network. (a) Classification accuracy; (b) confusion matrix

3.4 非线性全光衍射深度神经网络的性能评估

表 8. 具有不同激活函数的非线性全光衍射深度神经网络对MNIST数据集的分类正确率

Table 8. Classification accuracies of MNIST dataset by nonlinear all-optical diffraction deep neural networks with different activation functions

图 10. 具有不同激活函数的全光衍射深度神经网络对MNIST数据集的分类正确率和混淆矩阵。(a)(b) Leaky-ReLU;(c)(d) PReLU;(e)(f) RReLU

Fig. 10. Classification accuracies and confusion matrixes of MNIST dataset by all-optical diffraction deep neural networks with different activation functions. (a)(b) Leaky-ReLU; (c)(d) PReLU; (e)(f) RReLU

图 11. 各种全光衍射深度神经网络模型对MNIST数据集中各个数字的识别正确率

Fig. 11. Recognition accuracy of each number in MNIST dataset by each all-optical diffraction deep neural network model

表 9. 具有不同激活函数的非线性全光衍射深度神经网络对Fashion-MNIST数据集的分类正确率

Table 9. Classification accuracies of Fashion-MNIST dataset by nonlinear all-optical diffraction deep neural networks with different activation functions

图 12. 具有不同激活函数的全光衍射深度神经网络对Fashion-MNIST数据集的分类正确率和混淆矩阵。(a)(b) Leaky-ReLU;(c)(d) PReLU;(e)(f) RReLU

Fig. 12. Classification accuracies and confusion matrixes of Fashion-MNIST dataset by all-optical diffraction deep neural networks with different activation functions. (a)(b) Leaky-ReLU; (c)(d) PReLU; (e)(f) RReLU

图 13. 各种全光衍射深度神经网络模型对Fashion-MNIST数据集中各个数字的识别正确率

Fig. 13. Recognition accuracy of each number in Fashion-MNIST dataset by each all-optical diffraction deep neural network model

4 结论

Article Outline

相关论文

相关资讯

关于本站 Cookie 的使用提示

全站搜索

基于10.6 μm波长的小型化非线性全光衍射深度神经网络建模方法下载： 1058次