基于10.6 μm波长的小型化非线性全光衍射深度神经网络建模方法 下载: 1058次
1 引言
深度学习在图像分类[1]、自然语言处理[2]和语音识别[3]等方面取得了一定的成功。深度神经网络具有增强模型表达的能力[4]。相比于数字实现的神经网络,光计算具有高带宽、高速计算、固有的并行性和低功耗等优势。LED阵列的Hopfield网络[5]、光电实现的储备池计算[6-10]、含有微米共振器的尖峰循环网络[11-12]以及利用马赫-曾德尔干涉仪(MZI)的前馈神经网络[13]等统称为光神经网络(Optical Neural Network, ONN)。光神经网络具有并行处理、高密度布线以及可直接处理图像等独特的优势[14],它可由空间光互连和波导光互连实现。
在光神经网络研究中, Lin等[15-16]通过芯片将神经网络应用于现实世界,该芯片依靠光的传播实现几乎零消耗和零延迟的深度学习,即全光衍射深度神经网络(all-optical diffraction deep neural network, D2NN)。该结构的物理模型由输入层、5个隐藏层和输出层组成。输入层由太赫兹波段光源进行照明,输入表面的相位或者振幅以编码光信息。入射光束在输入层衍射后,隐藏层对光束的相位或者振幅进行调制。输出层的光电检测器阵列检测输出光的强度,并根据10个不同区域中的光强差异来识别手写数字。通过更新的相位对衍射光栅进行建模,并以3D打印的方式制作衍射光栅。2019年,研究者提出了一种基于上述架构的宽带衍射神经网络[17]。该模型对光源的要求不再局限于单色相干光,且拓展了此框架的应用范围。然而,这两种方案存在一定的缺陷:1)太赫兹光源价格昂贵;2)衍射光栅尺寸过大而不利于集成。本课题组使用一种衍射光栅代替3D打印的衍射光栅[18-19],由于使用了二氧化碳(CO2)激光器发射10.6 μm的红外激光和HgCdTe检测阵列器,每个神经元的尺寸可以缩小至5 μm,因此1 mm×1 mm的衍射光栅包含200×200个神经元。选择10.6 μm作为波长可节约成本,整个衍射光栅是以锗为基底,且锗的工作波长为10.6 μm,这种小型集成化的衍射光栅获得了更广泛的应用。然而,之前的工作中并未考虑模型的非线性效应。
非线性激活函数通过学习输入与输出之间的复杂映射,在神经网络模型中起着至关重要的作用。如果神经网络中没有激活函数,无论有多少神经网络,输出都是输入的线性组合,非线性拟合能力较弱。目前,非线性激活函数主要包括Sigmoid、Tanh、ReLU等。其中,ReLU具有以下三个优势:1)解决梯度爆炸和梯度消失的问题;2)加速收敛;3)使得一些神经元的输出为0,从而导致网络的稀疏。ReLU激活函数的改进函数包括Leaky ReLU、PReLU、RReLU等。这些函数提高了分类的速度和正确率。ReLU激活函数允许网络本身引入稀疏性。该方法相当于无监督学习的预训练,大大缩短了学习周期。
本文提出了一种基于10.6 μm波长的非线性全光衍射深度神经网络建模方法,相比于文献[ 15-16],将神经网络的物理尺寸缩小了1/80,进一步提高了神经网络的非线性表征能力,并在仿真状态下验证了该模型的分类正确率。研究结果为微米波长的非线性全光衍射深度神经网络模型框架的研究提供了理论依据,为进一步实现大规模集成化、小型化光子计算芯片提供了参考。
2 非线性全光衍射深度神经网络
2.1 MNIST数据集和Fashion-MNIST数据集
MNIST数据集是由数字0~9组成的手写数字数据集,如
图 1. 数据集示例。(a) MNIST数据集;(b) Fashion-MNIST数据集
Fig. 1. Dataset examples. (a) MNIST dataset; (b) Fashion-MNIST dataset
Fashion-MNIST数据集是一种代替MNIST手写数字集的分类服饰数据集,具有和MNIST数据集同样的特征,即包含60000张训练图像和标签及10000张测试图像和标签,每张图像的分辨率为28 pixel×28 pixel等。相比于MNIST数据集,Fashion-MNIST数据集不再是抽象的数字符号,而是更加具体化的服饰类型,如
表 1. Fashion-MNIST数据集中的标签号码和种类
Table 1. Label numbers and categories in Fashion-MNIST dataset
|
2.2 网络模型
图 2. 非线性全光衍射深度神经网络的结构示意图。(a)系统物理模型;(b)光路模型;(c)神经网络模型
Fig. 2. Structural diagrams of nonlinear all-optical diffraction deep neural network. (a) Physical model of system; (b) optical path model; (c) neural network model
根据Rayleigh-Sommerfeld衍射方程,非线性全光衍射深度神经网络中每层衍射光栅的神经元可由次级波方程[20-21]进行计算 :
式中:w为神经网络层中的神经元;(x,y,z)为该神经元在神经网络层的位置坐标;l表示网络的第l层;i表示第l层的第i个神经元,且坐标位置为(xi,yi,zi);r=
光在衍射光栅之间的前向传播过程可表示为
式中:
相比于文献[
15-16],本文在基于微米波长的非线性全光衍射深度神经网络模型中加入了非线性激活函数
式中:φL(
图 3. 不同激活函数的数学模型。(a) Leaky-ReLU和PReLU;(b) RReLU
Fig. 3. Mathematical models of different activation functions. (a) Leaky-ReLU and PReLU; (b) RReLU
2.3 模型训练
输入光在经过多层光栅的衍射之后会在探测平面输出一幅结果图像,探测器对结果图像中的探测区域进行探测以得到网络分类结果。因此需要在参数训练阶段对数据标签进行处理,设计不同标签以对应结果图像中的标志。如
对于包含N个隐藏层的非线性全光衍射深度神经网络,其输出层的光强可以表示为
对探测器在输出平面测量的强度进行归一化处理,使它们位于每个样本的(0,9)区间,用Il表示入射到输出层第l个探测器上的光信号总量,则归一化强度I'l为
将非线性全光衍射深度神经网络的输出结果与输入值进行对比,使用误差反向传播对光栅参数进行迭代,并根据目标特性对非线性全光衍射深度神经网络的输出定义损失函数,使用交叉熵函数作为神经网络中的损失函数。交叉熵函数为
式中:
3 实验结果
3.1 评估方法
在仿真过程中,在MNIST数据集和Fashion-MNIST数据集中分别选取55000张图像和5000张图像作为训练集和验证集,剩下的10000张保留给测试集。采用混淆矩阵作为评估方法。首先,需要对混淆矩阵Ci'(i'=0~9)进行计算。对于每一个单类,评估由Ti'、Fi'、Ni'和Pi'定义,分类器的正确率可以表示为
式中:Ti'表示混淆矩阵Ci'中真实值为真且模型预测为真的数量;Ni'表示混淆矩阵Ci'中真实值为假且模型预测为假的数量;Pi'表示混淆矩阵Ci'中真实值为假而模型预测为真的数量;Fi' 表示混淆矩阵Ci'中真实值为真而模型预测为假的数量。
3.2 模型超参数优化结果
全光衍射深度神经网络模型中的超参数包括光栅物理参数和神经网络训练参数。入射波长、光栅像元尺寸和光栅间距属于光栅参数;光栅层数、光栅像元规模、每批数据量、循环次数和学习率属于训练参数。其中,确定入射波长(λ)为10.6 μm,神经元尺寸为5 mm。基于微米波长的全光衍射深度神经网络模型识别MNIST数据集的超参数选择如
表 2. MNIST数据集中神经网络光栅的物理参数
Table 2. Physical parameters of neural network grating in MNIST dataset
|
表 3. MNIST数据集中神经网络的训练参数
Table 3. Neural network training parameters in MNIST dataset
|
使用网格搜索法对神经网络的超参数进行选择,首先对光栅层数进行选择。在仿真状态下,选择网络模型中的每批数据量为100,为了减少仿真时间,循环次数为10,损失函数为交叉熵函数,优化器为Adam优化器,学习率选择为0.01。由
图 6. MNIST数据集中不同光栅层数对应的分类正确率
Fig. 6. Classification accuracy corresponding to each number of grating layers in MNIST dataset
确定神经网络模型中的光栅层数后,对模型训练参数中的像元规模和衍射光栅间距等进行优化。不同像元规模和衍射光栅间距对应的分类正确率如
表 4. 不同像元规模和衍射光栅间距对应的MNIST数据集分类正确率
Table 4. Classification accuracy of MNIST dataset corresponding to each pixel size and diffraction grating spacing
|
由
基于微米波长的全光衍射深度神经网络模型识别Fashion-MNIST数据集的超参数选择方式与上述方法一致,参数如
表 5. Fashion-MNIST数据集中神经网络光栅的物理参数
Table 5. Physical parameters of neural network grating in Fashion-MNIST dataset
|
表 6. Fashion-MNIST数据集中神经网络的训练参数
Table 6. Neural network training parameters in Fashion-MNIST dataset
|
利用网格搜索法对超参数进行优化,光栅层数的优化选择如
图 7. Fashion-MNIST数据集中不同光栅层数对应的分类正确率
Fig. 7. Classification accuracy of Fashion-MNIST dataset corresponding to each number of grating layers in Fashion-MNIST dataset
表 7. 不同像元规模和衍射光栅间距对应的Fashion-MNIST数据集分类正确率
Table 7. Classification accuracy of Fashion-MNIST dataset corresponding to each pixel size and diffraction grating spacing
|
3.3 全光衍射深度神经网络的性能评估
在基于微米波长的标准全光衍射深度神经网络模型中未加入激活函数的情况下,MNIST数据集的分类结果如
图 8. 标准全光衍射深度神经网络对MNIST数据集的分类结果。(a)分类正确率;(b)混淆矩阵
Fig. 8. Classification results of MNIST dataset by standard all-optical diffraction deep neural network. (a) Classification accuracy; (b) confusion matrix
由
在基于微米波长的标准全光衍射深度神经网络模型中未加入激活函数的情况下,Fashion-MNIST数据集的分类结果如
图 9. 标准全光衍射深度神经网络对Fashion-MNIST数据集的分类结果。(a)分类正确率;(b)混淆矩阵
Fig. 9. Classification results of Fashion-MNIST dataset by standard all-optical diffraction deep neural network. (a) Classification accuracy; (b) confusion matrix
由
3.4 非线性全光衍射深度神经网络的性能评估
在传统全光衍射深度神经网络模型的基础上,选择Leaky-ReLU、PReLU、RReLU函数作为模型的激活函数,将模型对MNIST数据集的分类正确率与传统全光衍射深度神经网络模型的结果进行对比。仿真得到的MNIST数据集的分类正确率如
表 8. 具有不同激活函数的非线性全光衍射深度神经网络对MNIST数据集的分类正确率
Table 8. Classification accuracies of MNIST dataset by nonlinear all-optical diffraction deep neural networks with different activation functions
|
可以看出,具有RReLU函数的神经网络具有0.9630的分类正确率,与文献[
15-16]的结果相比,基于微米波长的非线性全光衍射深度神经网络模型在特征尺寸缩小1/80的前提下,分类正确率仅相差0.01,理论证明了模型的正确性。
由
图 10. 具有不同激活函数的全光衍射深度神经网络对MNIST数据集的分类正确率和混淆矩阵。(a)(b) Leaky-ReLU;(c)(d) PReLU;(e)(f) RReLU
Fig. 10. Classification accuracies and confusion matrixes of MNIST dataset by all-optical diffraction deep neural networks with different activation functions. (a)(b) Leaky-ReLU; (c)(d) PReLU; (e)(f) RReLU
相比于标准的全光衍射深度神经网络,分类正确率有很大的提高。例如数字8,具有三种激活函数的神经网络的分类正确率最高提升了0.23。
在对Fashion-MNIST数据集进行分类时,选择与上述相同的非线性激活函数,并将模型对Fashion-MNIST数据集的分类正确率与传统全光衍射深度神经网络模型的结果进行对比。仿真得到的Fashion-MNIST数据集分类正确率如
图 11. 各种全光衍射深度神经网络模型对MNIST数据集中各个数字的识别正确率
Fig. 11. Recognition accuracy of each number in MNIST dataset by each all-optical diffraction deep neural network model
表 9. 具有不同激活函数的非线性全光衍射深度神经网络对Fashion-MNIST数据集的分类正确率
Table 9. Classification accuracies of Fashion-MNIST dataset by nonlinear all-optical diffraction deep neural networks with different activation functions
|
加入RReLU激活函数后,分类正确率为0.8743。与文献[
15-16]的结果相比,分类正确率仅相差0.02,理论证明了模型的正确性。
图 12. 具有不同激活函数的全光衍射深度神经网络对Fashion-MNIST数据集的分类正确率和混淆矩阵。(a)(b) Leaky-ReLU;(c)(d) PReLU;(e)(f) RReLU
Fig. 12. Classification accuracies and confusion matrixes of Fashion-MNIST dataset by all-optical diffraction deep neural networks with different activation functions. (a)(b) Leaky-ReLU; (c)(d) PReLU; (e)(f) RReLU
由
图 13. 各种全光衍射深度神经网络模型对Fashion-MNIST数据集中各个数字的识别正确率
Fig. 13. Recognition accuracy of each number in Fashion-MNIST dataset by each all-optical diffraction deep neural network model
4 结论
提出了一种基于微米波长光源的非线性全光衍射深度神经网络的实现方案,通过前向传播计算神经网络输出及误差反向传播优化参数,建立了非线性全光衍射深度神经网络模型结构,针对MNIST数据集和Fashion-MNIST数据集的分类任务,对神经网络的超参数进行了优化。仿真结果表明,加入RReLU函数的非线性全光衍射深度神经网络对MNIST数据集和Fashion-MNIST数据集的分类正确率分别达到0.9630和0.8743。在后续工作中将对神经网络模型进行进一步优化,以期为实现小型化微米波长的非线性全光衍射深度神经网络物理系统提供理论依据。
[1] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
[3] GravesA, Mohamed AR, HintonG. Speech recognition with deep recurrent neural networks[C] //2013 IEEE International Conference on Acoustics, Speech and Signal Processing, May 26-31, 2013, Vancouver, BC, Canada. New York: IEEE, 2013: 6645- 6649.
[4] Le Cun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[5] Farhat N H, Psaltis D, Prata A, et al. Optical implementation of the Hopfield model[J]. Applied Optics, 1985, 24(10): 1469.
[6] Paquot Y, Duport F, Smerieri A, et al. Optoelectronic reservoir computing[J]. Scientific Reports, 2012, 2: 287.
[7] Appeltant L, Soriano M C, Van der Sande G, et al. Information processing using a single dynamical node as complex system[J]. Nature Communications, 2011, 2: 468.
[8] 周治平, 许鹏飞, 董晓文. 硅基光电计算[J]. 中国激光, 2020, 47(6): 0600001.
[9] 张波, 和挺, 钟良, 等. 基于有机光电材料的太赫兹波调制器件研究进展[J]. 中国激光, 2019, 46(6): 0614012.
[10] 张依宁, 徐艾诗, 冯玉玲, 等. 光电反馈半导体激光器输出光的混沌特性[J]. 光学学报, 2020, 40(12): 1214001.
[11] Tait A N, de Lima T F, Zhou E, et al. Neuromorphic photonic networks using silicon photonic weight banks[J]. Scientific Reports, 2017, 7(1): 7430.
[12] Tait A N, Nahmias M A, Shastri B J, et al. Broadcast and weight: an integrated network for scalable photonic spike processing[J]. Journal of Lightwave Technology, 2014, 32(21): 4029-4041.
[13] Shen Y C, Harris N C, Skirlo S, et al. Deep learning with coherent nanophotonic circuits[J]. Nature Photonics, 2017, 11(7): 441-446.
[14] 陈宏伟, 于振明, 张天, 等. 光子神经网络发展与挑战[J]. 中国激光, 2020, 47(5): 0500004.
[15] Lin X, Rivenson Y, Yardimci N T, et al. All-optical machine learning using diffractive deep neural networks[J]. Science, 2018, 361(6406): 1004-1008.
[16] Mengu D, Luo Y, Rivenson Y, et al. Analysis of diffractive optical neural networks and their integration with electronic neural networks[J]. IEEE Journal of Selected Topics in Quantum Electronics, 2020, 26(1): 1-14.
[17] Luo Y, Mengu D, Yardimci N T, et al. Design of task-specific optical systems using broadband diffractive neural networks[J]. Light, Science & Applications, 2019, 8: 112.
[18] Lu L D, Zhu L Q, Zhang Q K, et al. Miniaturized diffraction grating design and processing for deep neural network[J]. IEEE Photonics Technology Letters, 2019, 31(24): 1952-1955.
[19] 牛海莎, 于明鑫, 祝博飞, 等. 基于10.6微米全光深度神经网络衍射光栅的设计与实现[J]. 红外与毫米波学报, 2020, 39(1): 13-18.
[20] Bianchi V, Carey T, Viti L, et al. Terahertz saturable absorbers from liquid phase exfoliation of graphite[J]. Nature Communications, 2017, 8: 15763.
[21] Goodman JW. Introduction to Fourier optics[M]. New York: McGraw-Hill Companies, 2005.
[24] He KM, Zhang XY, Ren SQ, et al. Delving deep into rectifiers: surpassing human-level performance on ImageNet classification[C] //2015 IEEE International Conference on Computer Vision (ICCV), December 7-13, 2015, Santiago, Chile. New York: IEEE, 2015: 1026- 1034.
Article Outline
孙一宸, 董明利, 于明鑫, 夏嘉斌, 张旭, 白雨晨, 鹿利单, 祝连庆. 基于10.6 μm波长的小型化非线性全光衍射深度神经网络建模方法[J]. 激光与光电子学进展, 2021, 58(8): 0820001. Yichen Sun, Mingli Dong, Mingxin Yu, Jiabin Xia, Xu Zhang, Yuchen Bai, Lidan Lu, Lianqing Zhu. Modeling Method of Miniaturized Nonlinear All-Optical Diffraction Deep Neural Network Based on 10.6 μm Wavelength[J]. Laser & Optoelectronics Progress, 2021, 58(8): 0820001.