牛朝旭 1,2孙海江 1,2,*
作者单位
摘要
1 中国科学院 长春光学精密机械与物理研究所,吉林 长春 130033
2 中国科学院大学,北京 100049
为实现卷积神经网络在低功耗、边缘计算等场景中的加速计算,设计了一种基于现场可编程门阵列(FPGA)的Winograd算法卷积神经网络加速器。首先,将图像数据和权重数据量化为8位定点数,并设计了硬件卷积计算过程中的量化流程,提升了数据传输速度和计算速度。接着,设计了输入数据缓存复用模块,将多输入通道数据融合后传输,复用了行重叠数据。然后设计了Winograd流水线卷积模块,实现列数据的组合复用,从而最大化重用了片上数据,降低了片上数据存储的占用和带宽压力。最后将加速器在Xilinx的ZCU104开发板上部署。经过实验验证,加速器的卷积层计算性能达到354.5 GOPS,片上DSP计算效率达到0.69,与相关研究相比,实现了1.6倍以上的提升。该加速器能够以高能效比完成基于VGG-16网络的遥感图像分类任务。
卷积神经网络 现场可编程门阵列 Winograd算法 流水线 并行计算 convolution neural network field programmable gate array winograd algorithm assembly line parallel computing 
液晶与显示
2023, 38(11): 1521
作者单位
摘要
西安邮电大学通信与信息工程学院, 陕西西安 710061
主要阐述太赫兹(THz)通信系统中的信道编码部分, 利用 CPU多核进行并行计算, 实现对 Turbo码的编译码程序的加速。通过 4个方面对 Turbo码的编译码进行优化加速, 包括预留内存空间、并行循环以及对编码结构和译码公式的优化, 从而实现代码运行时间的缩短。经实验验证, 经过对不同码长的数据进行编译码运算, 发现在输入码长为 10 000 bit时, 并行计算时间可以缩短 56.6%。
太赫兹 Turbo码 并行计算 多核加速 terahertz Turbo code parallel computing multi-core acceleration 
太赫兹科学与电子信息学报
2022, 20(5): 431
作者单位
摘要
1 空军工程大学研究生院,陕西 西安 710038
2 空军工程大学航空工程学院,陕西 西安 710038
为进一步优化天线阵列激励得到的宽零陷和低旁瓣的方向图,通过软件Matlab2019b对天线阵列波束成形算法进行仿真,对比方向图分析说明,在原有约束的基础上增加二次约束以及改进协方差的方式存在展宽主瓣的问题。为了在展宽零陷和抑制旁瓣的同时保持主瓣宽度不变,提出了基于幅值十分位粒子群并行寻优的线性约束最小方差(LCMV)方向图修正算法。该算法通过对比几种算法所得到的天线阵列激励的特点,引入先验信息,仅对权矢量的幅值寻优缩小可行解空间,同时改进粒子群算法寻优机制,通过十分位寻优方法使算法收敛更稳定,并且对粒子群算法代码向量化,同时利用图形处理器使每个粒子同时更新,实现粒子群并行算法,加快算法计算时间。仿真结果表明:该算法能实现展宽零陷和低旁瓣的同时,保持主瓣宽度,在所对比的算法中效果最好,同时基于幅值十分位粒子群并行算法收敛所需的迭代次数更少,计算速度更快,且天线规模越大提升越明显。
傅里叶光学与信号处理 波束形成 粒子群优化算法 并行计算 零陷展宽 
激光与光电子学进展
2022, 59(17): 1707003
王卫杰 1,2,3赵振国 1,2,3,4胡少亮 1,2李瀚宇 1,2,3周海京 1,2,3,*
作者单位
摘要
1 中物院高性能数值模拟软件中心, 北京 100088
2 北京应用物理与计算数学研究所, 北京 100094
3 中国工程物理研究院 复杂电磁环境科学与技术重点实验室, 四川 绵阳 621900
4 复旦大学 专用集成电路与系统国家重点实验室, 上海 201203
目的是研究高性能的电磁场仿真软件,对真实的芯片-系统电磁脉冲耦合过程进行高分辨率、高置信度的电磁仿真。研究重点是针对多尺度问题,突破算法的并行计算瓶颈。基于自主软件平台快速研发出仿真软件,在高性能计算平台上完成对真实复杂问题的全波电磁仿真。通过对某真实机箱内部芯片的电磁脉冲耦合仿真分析,验证了本文提出的算法的高性能、高效率的特性。
芯片-系统 电磁脉冲 多尺度 有限元方法 并行计算 chip-system electromagnetic pulse multiscale problem finite element method parallel computing 
强激光与粒子束
2021, 33(12): 123015
作者单位
摘要
北京卫星制造厂有限公司,北京 100094
为了实现枝切法在激光散斑干涉相位图解包裹中工程化的应用,解决由于外来光线干扰、激光器性能下降、相机拍照局部点欠采样等原因出现的枝切线密集、计算速度慢等问题,在Goldstein枝切法的基础上提出了优化改进方案。将残差点当作带着正负单位电量的“电子”,利用电磁力导引通过相位平滑或增加相位跳变处理消除残差点,减少枝切线数量,同时采用GPU并行计算技术提高图像处理速度。仿真实验和实际测量数据表明优化后 的枝切法解包裹图像质量更好,对于500万像素散斑相位图,通过电磁力引导可消除98%以上的残差点,减少90%以上的枝切线,处理时间可由以往15 s压缩至1.5 s,满足了枝切法高质量快速解包裹的工程化应用要求。
枝切法 激光散斑干涉 相位图解包裹 GPU并行计算 电磁力导引 branch-cut method laser speckle interferometry phase diagram wrapping GPU parallel computing electromagnetic force guidance 
红外与激光工程
2021, 50(10): 20200451
作者单位
摘要
宁波财经学院,浙江 宁波 315175
为了解决海量交通视频数据的监控和分析问题,本文对Hadoop大数据背景下的交通视频监控技术进行了深入研究,提出了基于交通视频数据的异常检测算法的设计方案,实现了交通数据的实时更新和异常分析,同时针对海量交通监控视频,设计了基于Hadoop组件MapReduce的并行实现算法,并通过浙江省某市的实际交通数据验证算法的有效性和准确性。经过实验证明,本文算法可以有效计算出交通拥堵情况和异常情况,相对于传统方案,本文方案可以聚焦10 min范围内的时间粒度对交通情况进行实时分析,相对于传统的分布式计算模型,本文的方案10 min延迟可以控制在2.1 s,比传统方案延迟降低了81%,基本满足交通视频监控的实时和细颗粒度等要求。
并行计算 海量数据分析 分布式计算 异常堵点检测 parallel computing massive data analysis distributed computing anomaly blocking point detection 
液晶与显示
2020, 35(11): 1204
龙潇 1,2,3鲍华 1,2,*饶长辉 1,2高国庆 1,2周璐春 1,2
作者单位
摘要
1 中国科学院自适应光学重点实验室,四川 成都 610209
2 中国科学院光电技术研究所,四川 成都 610209
3 中国科学院大学,北京 100049
针对Miguel等人提出的质量图引导相位解包裹算法中串行运算效率较低的缺点,构造了一种多个低可靠度区块并行合并的改进算法。在满足原始算法设计思想的前提下,对解包裹路径进行重新定义,并根据原始算法的解包裹路径非连续的特性,构建了一种低可靠度区块乱序合并的策略,使得多个低可靠度区块的合并任务可以同时进行。改进算法采用多线程软件架构,主线程负责循环遍历未处理的区块,子线程接收待处理的区块执行合并任务。实验结果表明,改进方法与原始算法的处理结果完全一致,而并行改进策略可有效利用计算机多核资源,使得相位解包裹算法的运行效率提高了50%以上。
相位解包裹 质量引导 路径相关 并行计算 相位测量 phase unwrapping quality guidance path dependent parallel computing phase measurement 
光电工程
2020, 47(12): 200111
作者单位
摘要
1 上海海洋大学信息学院, 201306
2 上海电力大学电子与信息工程学院, 上海 200090
高光谱图像分类是遥感领域的研究热点之一,是对地观测的重要手段,在地物的精细识别等领域具有重要的应用。使用卷积神经网络(CNN)可以有效地从原始图像中提取高级特征,具有较高的分类精度。但CNN计算量巨大,对硬件要求较高。为了提高模型计算效率,可以在图形处理器(GPU)上进行CNN模型的训练。现有的并行算法,比如GCN(GPU based Cube-CNN),无法充分利用GPU的并行能力,算法加速效果并不理想。为了进一步提升算法效率,提出基于通用矩阵乘法(GEMM)算法的GGCN(GPU based Cube-CNN improved by GEMM)并行加速算法,通过G-PNPE(GEMM based Parallel Neighbor Pixels Extraction)对输入数据和卷积核进行重新组织排列,实现卷积的并行计算,有效地提高了GPU的利用率并进一步提升了算法的训练效率。通过分析在三个数据集上的实验结果发现,改进算法的分类精度与原算法保持一致,而且模型的训练时间缩短了30%左右,表明算法的有效性和优越性。
成像系统 高光谱图像 图形处理器 通用矩阵乘法 并行计算 
激光与光电子学进展
2020, 57(20): 201101
肖文 1,2吴天琦 1,2李仁剑 1,2唐黎 1,2,*陈玲玲 1,2
作者单位
摘要
1 深圳大学物理与光电工程学院,光电子器件与系统广东省/教育部重点实验室, 广东 深圳 518060
2 深圳技术大学健康与环境工程学院, 广东 深圳 518118
随机光学重建显微镜(STORM)关键技术包括大量随机闪烁图像的数据定位与重建算法,而现有的常用开源算法在大数据量情况下存在用时过长或内存受限等限制,影响了STORM技术的进一步推广应用。基于MATLAB和并行计算的方法构建了WindSTORM PLUS开源算法,采用该算法进行单分子定位数据处理。在模拟数据集下,对比WindSTORM和ThunderSTORM,WindSTORM PLUS算法的处理速度提高了1000%,且对比WindSTORM,内存需求降低了60%。此外,搭建了easySTORM系统,在实验数据的处理耗时对比中,WindSTORM PLUS只有WindSTORM和Gauss-WLS的9%,验证了其在超大数据集下处理速度的优越性。WindSTORM PLUS开源算法为超分辨图像处理提供了一个新的高速处理方案。
显微 随机光学重建显微镜 并行计算 超分辨成像 图形处理器 
中国激光
2020, 47(6): 0607001
作者单位
摘要
1 中国洛阳电子装备试验中心,河南 洛阳 471003
2 哈尔滨工业大学 工信部空天热物理重点实验室,黑龙江 哈尔滨 150001
建立了一种包含蒙皮和尾焰的空中目标红外辐射成像GPU并行计算方法。采用SLG模型计算尾焰辐射气体的红外特性,采用LOS方法求解尾焰红外辐射传输方程,根据本体与三维尾焰的成像几何关系,采用正向光线追迹方法计算蒙皮辐射成像,采用反向光线追迹方法计算尾焰辐射成像,建立了目标投影算法,并在蒙皮投影计算模块和尾焰辐射计算模块采用CUDA并行提高计算速度,实现了探测器入瞳处目标红外光谱图像的快速计算。结果表明:投影成像算法可准确生成设定条件下的目标图像,目标红外图像辐射分布与温度分布一致,尾焰辐射强度计算结果与实验结果符合较好,CUDA并行算法可有效提高程序的计算效率,当计算量较大时,蒙皮投影模块的计算加速可达百倍以上。
红外辐射 空中目标 图像仿真 CUDA并行计算 infrared radiation aerial target image simulation CUDA parallel compute 
红外与激光工程
2020, 49(4): 0404003

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!