1 东华大学理学院, 上海 201620
2 上海乾曜光学科技有限公司, 上海 201806
中频波前均方根(PSD1)是用来评价光学元件中频段波前质量的关键参数, 在对其进行数值计算之前, 需要对波前数据进行频率域滤波。滤波后的数据易导致待测区域内、外的数据截断, 引入较大的边缘高频误差与吉布斯噪声, 从而严重影响了计算准确度。为了减小数据截断带来的影响, 通过对边缘截断的数据做趋优填充, 减少截断区域内外的空间频率突变。通过对现有的空域预处理方法进行对比, 提出了一种四向扩展平均算法。经试验验证, 所提出的方法可以较好地还原光学元件的中频段面形, 显著提高PSD1测量准确度, 试验表明所提出的方法较标准值的误差平均值小于5%。
波前检测 中频波前均方根 数据预处理 傅里叶变换 wavefront testing root mean square of mid-spatial-frequency wavefron data preprocessing Fourier transform
1 温州商学院信息工程学院, 浙江 温州 325035
2 温州职业技术学院人工智能学院, 浙江 温州 325035
3 西安交通大学数学与统计学院, 陕西 西安 710049
为提高利用红外光谱数据鉴别中药材产地的预测模型效果, 应该选用合适的数据预处理方法和合适的算法。 针对具有3 448个特征(波长551~3 998 nm)的658条红外光谱中药材数据, 借助于支持向量机(SVM)算法, 研究了10种基于样本预处理方法(不做预处理、 最大最小归一化、 标准化、 中心化、 移动平均平滑、 SG平滑滤波、 多元散射校正、 正则化、 一阶导数和二阶导数法)与5种基于特征波长预处理方法(不做预处理、 中心化、 最大最小归一化、 标准化和正则化)的组合(共50种)对产地模型预测精度和稳定性的影响。 结果表明: 合适的数据预处理对提高模型精度是必要的; 标准化和最大最小正则化方法光谱的预处理建模效果较好, 其预测系数值约85%; 基于特征的预处理对模型预测效果改进小。 只做光谱预处理或基于特征预处理的预测稳定性值近似相等(两类方式的决定系数平均值都近64%); 基于样本+特征的组合预处理方法中, 二阶导数+标准化处理和二阶导数+正则化组合处理方法的模型预测效果好, 其决定系数R2达到近94%; 而中心化+正则化组合处理达不到直接采用原始数据(不做数据预处理)的建模效果, 该方法预测效果最差。 该研究的方法和结论为具有高维光谱特征的药材产地鉴别和选取有效的预处理方法提供了参考, 对进一步分析药材药效和化学成份有重要的意义, 也可供其他光谱数据分析借鉴。 也为高维小样本数据建模的前期数据处理提供了思路。
中药材产地鉴别 光谱数据 数据预处理 小样本高维特征数据 SVM算法 Origin identification of Chinese medicinal materia Infrared spectroscopic data Data preprocessing High dimensional small sample SVM algorithm 光谱学与光谱分析
2023, 43(7): 2238
1 南京邮电大学 电子与光学工程学院, 南京 210023
2 南京先进技术激光研究院, 南京 210038
为了满足水下高速激光通信的需求和提高系统的误码性能, 设计一种基于二进制开关键控(OOK)调制的水下高速激光通信系统, 采用滑窗平均滤波方法对接收数据进行去噪处理, 根据固定值阈值和自适应阈值方式求取联合阀值后进行门限判决。系统测试结果表明: 联合阈值判决方式的误码性能优于固定阈值判决和自适应阈值判决方式; 系统在洁净水、水中含少量悬浮杂质2种水质通信时的误码率分别为0、10-2左右。
可见光通信 开关键控 联合判决 数据预处理 抗干扰能力 visible light communication on-off keying joint judgment data preprocessing anti-interference capability
山东大学(威海)机电与信息工程学院, 山东 威海 264209
拉曼光谱因具有简单、 快速及无损等特点, 非常适合矿石的分类与鉴别。 拉曼光谱模型拟合分类方法无需构建参考光谱库且避免了复杂的逐项光谱匹配, 具有明显的优势。 然而, 已有的基于机器学习及深度学习的矿石拉曼光谱分类研究所采用的学习模型比较单一, 缺乏具有参考意义的综合比较。 对基于机器学习及深度学习的矿石拉曼光谱模型拟合分类方法进行综合评估验证, 对比了KNN, XGBoost, SVM, RF四种传统机器学习方法和CNN, DNN, RNN三种深度学习模型在RRUFF矿物拉曼光谱数据集上的分类效果, 验证了4种数据预处理方法和样本量对模型分类效果的影响。 为提升机器学习模型的分类性能, 本文还提出了一种拉曼光谱强度曲率的数据预处理方法, 对经基线矫正后的拉曼光谱序列强度计算曲率作为构造特征, 使模型更有效的提取出拉曼光谱的特征峰位置。 实验结论: 数据预处理对提升机器学习模型的分类性能效果明显, 而对深度学习模型不敏感; 样本量为影响模型分类效果的关键因素, 当样本量较大时, 深度学习模型的分类效果优于传统的机器学习模型; 对于微小样本, 深度学习模型难以发挥其优势, 而辅以预处理的机器学习具有更优的分类性能。
矿物分类 拉曼光谱 机器学习 数据预处理 Mineral classification Raman spectroscopy Machine Learning Data preprocessing
1 武汉理工大学信息工程学院, 宽带无线通信与传感器网络湖北省重点实验室, 湖北 武汉 430070
2 华中农业大学园艺林学学院, 园艺植物生物学教育部重点实验室, 湖北 武汉 430070
嫁接的目的是为了提高植物抗土传病害和非生物逆境的能力。 甜瓜嫁接愈合状态的早检测是当前育苗厂工业化发展的重要需求。 在标准正态变量变换-Savitzky-Golay平滑-二阶导数(SNV-SG-SD)预处理基础上提出了融合嫁接差异信息的竞争性自适应重加权算法-连续投影法(DIS-CARS-SPA)特征提取算法, 并建立了基于网格寻优径向基核函数支持向量机(GS-RBF-SVM)分类模型, 实现了基于高光谱成像的甜瓜嫁接愈合状态早期分类检测。 首先采集以南瓜为砧木, 甜瓜为接穗的嫁接成活苗和非成活苗愈合期1~7 d内的高光谱图像, 分别采用9种光谱预处理方法, 2种特征提取算法和5种优化算法4种核函数支持向量机(SVM)分类模型进行分析。 结果显示, SNV-SG-SD光谱预处理、 DIS-CARS-SPA特征提取和GS-RBF-SVM分类模型效果最好。 利用该模型进一步分析, 在同一天不同类型二分类中, 愈合期1~7 d内任何一天的分类准确率均能达到99%以上; 在不同天嫁接成活苗二分类中可达 90.17%以上; 在不同天嫁接非成活苗二分类中可达97.03%以上; 在不同天不同类型十四分类中可达到96.85%, 比未融合嫁接差异信息的CARS-SPA特征提取方法准确率提高了0.59%, 比只预处理未特征提取方法提高了3.37%。 结果表明, 所提出的方法不仅能实现同一天不同类型二分类, 还能实现不同天同一类型的二分类, 不同天不同类型的多分类。 在实际应用中, 可将分类时间点提前到嫁接后第1天(肉眼观察第3~4天, 机器视觉技术第1~2天), 同时第3天均是嫁接成活苗和非成活苗的差异突变天数, 嫁接成活苗状态可分为弱—中—强三个阶段, 非成活苗状态可分为弱—更弱两个阶段, 该结论能为甜瓜嫁接苗生产提供有效指导, 具有一定的理论和实践价值。
高光谱成像 甜瓜嫁接 光谱预处理 特征提取 分类识别模型 Hyperspectral imaging Melon grafting Data preprocessing Feature extraction Classification and recognition model 光谱学与光谱分析
2022, 42(7): 2218
数据清洗是数据预处理的重要内容, 现有的清洗技术存在野值漏选、受野值影响等问题。提出了一种基于回归模型的动态精细识别算法, 在剔除潜在野值的基础上利用前后两段数据的回归值作为参考值, 再结合采集参数变化速率限制给出野值判决, 并给出了基于回归模型数据清洗的处理流程, 采用野值粗识别、精细识别、回归估计的步骤提高清洗效率和效果。最后, 利用一组真实的航空采集数据对该方法进行验证, 处理结果表明, 基于回归模型的采集数据清洗技术能够对野值进行准确的识别和估计。
数据清洗 采集数据 数据预处理 回归平滑 data cleaning sampled data data preprocessing regressive smoothing
1 四川大学电气工程学院, 成都 610065
2 国网智能科技股份有限公司, 济南 250101
针对采用含随机噪声的数据进行非线性动态系统建模无法获得准确模型参数的问题, 提出了一种基于加权最小二乘支持向量机(LS-SVM)数据预处理的复合辨识方案。复合辨识方案根据数据的分布信息, 利用加权LS-SVM对异常数据的鲁棒性, 通过回归计算消除数据的异常性; 再利用预处理后的数据训练补偿模糊神经网络参数, 得到系统模型。结果表明, 采用加权LS-SVM预处理的复合辨识方案运用在普遍存在随机噪声的系统中, 能获得更加准确的辨识模型。
数据预处理 加权LS-SVM 补偿模糊神经网络 data preprocessing weighted LS-SVM compensatory fuzzy neural network
红外与激光工程
2020, 49(8): 20190561
1 西安电子科技大学物理与光电工程学院, 陕西 西安 710071
2 中国科学院西安光学精密机械研究所瞬态光学与光子技术国家重点实验室, 陕西 西安 710119
3 深圳技术大学中德智能制造学院, 广东 深圳 518118
4 深圳大学物理与光电工程学院,光电子器件与系统教育部/广东省重点实验室, 广东 深圳 518060
为实现对红枣品种的判别,利用高光谱技术并结合机器学习算法对金丝大枣、骏枣和滩枣这三个品种的新疆红枣进行研究。首先,分别利用多元散射校正(MSC)、标准正态变量变换(SNV)、一阶导(1-Der)和Savitzky-Golay(SG)平滑等数据预处理方法对原始光谱进行预处理,研究了预处理方法对建模的影响;然后,利用光谱-理化值共生距离法(SPXY)将样本集划分为校正集和预测集,基于线性判别分析(LDA)、K-最近邻分类(KNN)和支持向量机(SVM)算法对预处理后的全波段光谱建立红枣品种鉴别模型,结果显示,在多种预处理方法中,1-Der的处理效果最好;然后,结合主成分分析(PCA)、连续投影算法(SPA)和竞争性自适应重加权采样(CARS)等特征提取方法对全波段光谱进行特征波段的提取,再基于特征波段建立红枣品种鉴别模型,结果发现,在几种特征提取方法中,基于CARS所提特征波段建立的模型可以获得最高的鉴别准确率;最后,以SVM模型为例对模型运行时间进行了比较,结果发现,基于特征波段所建模型的运行时间远短于基于全波段所建模型的运行时间。
光谱学 高光谱技术 机器学习 品种鉴别 数据预处理 特征波段提取 中国激光
2020, 47(11): 1111002
由于信号强度低、环境复杂等因素会造成光谱杂乱和波峰不 明显,利用被动红外远程遥测技术难以准确地对易制毒化学品 气体进行定性检测,即使采用基本的数字滤波算法也无 法有效解决这些问题。为此提出了一种基于卡尔曼/维 纳叠加的滤波算法。通过用该算法对光谱信号进行预处理,可以有效提高后期 波峰匹配的定性检测的准确性。基于改进的算法对采集到的 实验数据进行了验证。结果表明,与其他滤波算法的 处理效果相比,本文方法可以对干扰信号进行有效 过滤,并且可以对特征峰进行准确识别。
被动红外遥测技术 禁毒 光谱数据预处理 卡尔曼滤波 passive infrared remote sensing drug control spectral data preprocessing Kalman filtering