作者单位
摘要
1 温州商学院信息工程学院, 浙江 温州 325035
2 温州职业技术学院人工智能学院, 浙江 温州 325035
3 西安交通大学数学与统计学院, 陕西 西安 710049
为提高利用红外光谱数据鉴别中药材产地的预测模型效果, 应该选用合适的数据预处理方法和合适的算法。 针对具有3 448个特征(波长551~3 998 nm)的658条红外光谱中药材数据, 借助于支持向量机(SVM)算法, 研究了10种基于样本预处理方法(不做预处理、 最大最小归一化、 标准化、 中心化、 移动平均平滑、 SG平滑滤波、 多元散射校正、 正则化、 一阶导数和二阶导数法)与5种基于特征波长预处理方法(不做预处理、 中心化、 最大最小归一化、 标准化和正则化)的组合(共50种)对产地模型预测精度和稳定性的影响。 结果表明: 合适的数据预处理对提高模型精度是必要的; 标准化和最大最小正则化方法光谱的预处理建模效果较好, 其预测系数值约85%; 基于特征的预处理对模型预测效果改进小。 只做光谱预处理或基于特征预处理的预测稳定性值近似相等(两类方式的决定系数平均值都近64%); 基于样本+特征的组合预处理方法中, 二阶导数+标准化处理和二阶导数+正则化组合处理方法的模型预测效果好, 其决定系数R2达到近94%; 而中心化+正则化组合处理达不到直接采用原始数据(不做数据预处理)的建模效果, 该方法预测效果最差。 该研究的方法和结论为具有高维光谱特征的药材产地鉴别和选取有效的预处理方法提供了参考, 对进一步分析药材药效和化学成份有重要的意义, 也可供其他光谱数据分析借鉴。 也为高维小样本数据建模的前期数据处理提供了思路。
中药材产地鉴别 光谱数据 数据预处理 小样本高维特征数据 SVM算法 Origin identification of Chinese medicinal materia Infrared spectroscopic data Data preprocessing High dimensional small sample SVM algorithm 
光谱学与光谱分析
2023, 43(7): 2238
作者单位
摘要
南京林业大学材料科学与工程学院, 江苏 南京 210037
基于近红外光谱技术对木材产地进行识别必须依赖于光谱数据预处理方法和校准模型, 然而大多数采用近红外光谱技术识别木材产地的研究工作都是采用经典的线性模型。 构建木材地理溯源系统有利于促进木材市场的良性发展, 打击乱砍滥伐, 保护濒危树种。 为提高木材产地识别效率, 提出一种基于近红外光谱技术结合机器学习的木材产地识别方法。 首先建立木材产地的光谱数据集, 采集来自两种不同产地的樟子松、 泡桐、 榉木、 柚木、 椴木和臭椿的光谱数据, 每个树种构成一个数据集, 并将特征维度降至2维, 以探索各数据集的数据分布情况; 其次对原始光谱数据进行特征工程, 即分别采用主成分分析法和线性判别分析法对高维光谱数据进行降维处理, 以提高模型的泛化能力, 并对比两种降维技术对模型准确率的影响; 最后构建木材产地鉴别模型, 分别从非线性算法、 回归算法、 分类算法、 概率算法、 集成算法和深度学习算法六个角度选取了支持向量机、 逻辑回归、 K最近邻、 朴素贝叶斯、 随机森林和人工神经网络6种算法建立模型, 采用学习曲线、 网格搜索法、 K折交叉验证等算法优化模型参数以提高模型识别准确率及稳健性, 并从模型的准确率与运行时间两个层面来评估模型效果。 结果表明, 基于近红外光谱技术结合机器学习是识别木材地理来源的有效手段, 樟子松、 泡桐、 榉木、 柚木、 椴木和臭椿的准确率分别达到98.3%、 100%、 100%、 100%、 100%、 98.3%, 相应的模型运行时间分别为0.183、 0.182、 0.181、 0.182、 11.424和12.969 s。 综合分析6种模型在各数据集上的表现, 发现非线性的支持向量机和人工神经网络模型比其余模型更具有优势。 其中, 基于人工神经网络构建的木材产地鉴别模型表现优异, 在各数据集中识别率最高, 但运行时间远多于其余算法。
机器学习 近红外光谱 木材产地识别 主成分分析法 线性判别分析法 人工神经网络 Machine learning Near-infrared spectroscopy Wood origin identification Principal component analysis Linear discriminant analysis Artificial neural network 
光谱学与光谱分析
2023, 43(11): 3372
作者单位
摘要
1 食品科学与技术国家重点实验室, 中国-加拿大食品科学与技术联合实验室(南昌), 江西省生物活性多糖重点实验室, 南昌大学, 江西 南昌 330047
2 Guelph Research and Development Centre, Agriculture and Agri-Food Canada, Guelph N1G 5C9, Canada
近红外光谱检测技术可反映样品内部含氢化学键伸缩振动与合频吸收信息, 具有分析速度快、 经济、 重现性好以及环境友好等优点, 常用于食品、 药品及材料领域的检测分析之中。 豌豆是世界上最重要的栽培作物之一, 种植、 分布广泛, 具有高淀粉、 高蛋白、 低脂质等营养特性, 长久以来受到消费者的喜爱。 为了明确不同产地豌豆的近红外光谱建模差异, 对不同产地豌豆进行建模分析。 研究采集了河南省南阳市不同地区42份豌豆样本, 首先测定了豌豆的营养成分(总淀粉、 蛋白质、 水分、 灰分及脂质), 再重点采用近红外光谱中的积分球漫反射技术, 在12 000~4 000 cm-1波段对不同豌豆样品进行光谱采集, 通过判别分析模型(DA)结合不同的预处理方法得到最优预处理数据, 结合主成分分析(PCA)、 偏最小二乘判别分析(PLS-DA)以及正交偏最小二乘判别分析(OPLS-DA)等方法, 对光谱特征差异进行分类分析, 从而构建并验证南阳豌豆的产地识别模型。 结果表明, 不同区域南阳豌豆的营养组分及含量总体差异较小(总淀粉36.30%~46.93%, 蛋白质16.37%~25.50%, 水分6.78%~9.16%, 灰分2.29%~3.38%, 脂质0.37%~1.43%); 基于近红外光谱建立的判别模型表明, DA模型判别分析准确率可达92.4%, 并且PCA、 PLS-DA以及OPLS-DA得到的模型预测能力分别为96.7%, 85.1%和83.6%, 表明以上模型均可实现南阳豌豆鉴别模型的建立。 此外, 通过变量重要性投影值法提取(VIP>1.0)筛选出的不同产地差异波段显示, 4 710~4 000, 5 320~5 200以及7 200~6 220 cm-1可作为南阳豌豆产地鉴别的特异性检测波段。 该研究可为构建不同区域豌豆产地鉴别、 追溯信息库提供方法学依据。
豌豆 产地鉴别 营养成分 近红外光谱技术 判别模型 Pea Origin identification Nutritional components Near-infrared spectroscopy technology Discriminant model 
光谱学与光谱分析
2023, 43(4): 1095
作者单位
摘要
兰州大学信息科学与工程学院, 甘肃 兰州 730000
百合鳞茎, 百合科百合属多年生草本球根植物生长的肥厚鳞片构成的地下变态茎, 是一种典型的药食同源作物, 含有丰富营养成分的同时还具有抗肿瘤、 抗抑郁、 降血糖、 提高免疫力等保健作用。 不同产地百合鳞茎的市场价格差异较大, 依赖于人工经验感官的传统评测方法主观性强、 确定性差, 难以广泛推广在现代生产环节。 以化学检验法为主的先进检测方法耗时长、 费用高, 而且难以满足产地鉴别这一要求。 针对百合鳞茎现场快速地产地判断和品质评价的需求, 提出了一种使用拉曼光谱和机器学习的百合鳞茎检测方法。 拉曼光谱是一种基于非弹性散射的振动光谱, 能够做到快速准确的无损检测, 将拉曼光谱与机器学习算法相结合, 建立了我国分布最为广泛的三种百合鳞茎(兰州百合、 宜兴百合和龙牙百合)的产地分类模型, 着眼于基质光谱上479, 870, 942和1 606 cm-1等特征峰, 提出了一种基于拉曼光谱的成分含量判断产地和评价百合鳞茎品质的无损检测方法。 首先采集百合鳞茎样本的光谱, 经过光谱数据预处理后, 使用人工先验法提取百合鳞茎代表物质并确定特征峰, 再使用主成分分析和t-分布随机邻域嵌入方法降维提取光谱数据特征。 并将获得的数据特征分别应用于支持向量机、 决策树和随机森林算法。 实验结果显示, 这些分类模型在同一个测试集上均表现出较为理想的分类准确率, 其中基于主成分分析和决策树算法的模型准确率可达91.7%, 基于t-分布随机邻域嵌入和支持向量机的模型分类准确率为93.7%, 基于主成分分析和随机森林算法的组合模型, 准确率高达95.8%。 综上, 该方法可以实现现场快速识别和鉴定百合鳞茎的产地, 提高现代生产过程中质量评估环节的准确性, 为现代化生产的产地鉴别和百合鳞茎质量分析提供参考。
百合鳞茎 拉曼光谱 成分分析 特征提取 产地鉴别 Lily bulb Raman spectroscopy Component analysis Feature extraction Origin identification 
光谱学与光谱分析
2023, 43(1): 183
作者单位
摘要
1 浙江大学药学院, 浙江 杭州 310030
2 浙江大学智能创新药物研究院, 浙江 杭州 310018
烟草是一种成分复杂的天然植物, 地理位置、 生长条件等外界因素直接影响着烟叶的品质; 我国烟叶种植范围十分广泛, 每个产区种植的烟叶都有其独特的风格特征, 不同产区的烟叶配比对卷烟的质量起着决定性的作用。 为实现烟叶产地准确、 快速判别, 基于近红外光谱(NIRS), 采用灰狼算法(GWO)优化的支持向量机(SVM)算法实现烟叶产地鉴别分类。 以8个产地的824个烟叶样本为研究对象, 基于x-y距离样本集划分(SPXY)方法得到校正集617个和验证集207个样品。 首先应用最佳波长筛选方法, 如竞争自适应加权采样(CARS)和随机青蛙(RF)算法减少光谱冗余信息, 最终从1 609个变量中分别获得141和534个与产地相关的重要变量, 并以此输入SVM作为建模数据, 接下来在相同搜索范围内比较了粒子群优化算法(PSO)、 遗传算法(GA)和GWO对SVM分类模型的优化效果。 结果表明, 经RF筛选后的光谱变量较CARS具有更好的产地建模性能, 其中RF-GWO-SVM对8个产地烟叶的整体判别正确率达到了96.62%, 相较于RF-PSO-SVM和RF-GA-SVM正确率更高。 同时, RF-GWO-SVM的运行时间分别比RF-PSO-SVM和RF-GA-SVM的运行时间缩短156和131 min, RF-GWO-SVM具有精度更高、 寻优速度更快等优点。 GWO对于SVM模型参数具有更高效的优化能力, 可用于烟叶产地快速鉴别模型的建立。
近红外光谱技术 灰狼算法 支持向量机 烟叶 产地鉴别 Near-infrared spectroscopy Grey wolf optimizer Support vector machine Tobacco Origin identification 
光谱学与光谱分析
2022, 42(9): 2830
作者单位
摘要
中国地质大学(武汉)珠宝学院, 湖北 武汉 430074
甘肃马衔山和田玉具有重要的宝玉石价值和考古文化价值, 其中产地区分为甘肃马衔山和田玉的研究重点。 通过测试分析马衔山和田玉的化学成分, 对比其与国内主要产地和田玉的化学成分差异, 建立微量元素产地判别模型, 对甘肃马衔山和田玉的产地鉴别进行探究, 为甘肃齐家文化中古玉器溯源提供数据支撑。 以电子探针分析甘肃马衔山和田玉的主量元素, 结果表明其主要成分为透闪石。 采用激光剥蚀电感耦合等离子体质谱仪分析其微量元素和稀土元素, 对比新疆、 青海、 辽宁、 江苏、 贵州、 甘肃马衔山和田玉微量元素蛛网图、 稀土元素参数和稀土元素配分图, 结果表明不同产地和田玉存在差异, 可进行产地区分; 三维散点图δCe-ΣREE-LREE/HREE投图可将青海、 辽宁、 江苏、 贵州和田玉进行产地区分, 但不能区分新疆和甘肃马衔山和田玉; 运用SPSS软件对新疆、 青海、 辽宁、 江苏、 贵州、 甘肃马衔山和田玉的微量元素建立产地线性判别模型, 对于已知六个产地: 新疆、 青海、 辽宁、 江苏、 贵州、 甘肃马衔山的数据, 判别分析正确率可达100.0%, 交叉验证正确率为90.3%, 预留10组马衔山和田玉数据, 回代验证正确率为100%。 微量元素产地线性判别模型在和田玉产地判别中获得很好的效果。
和田玉 马衔山 化学成分 产地鉴别 线性判别分析 Hetian Yu Maxianshan Chemical composition Origin identification Linear discriminant analysis 
光谱学与光谱分析
2022, 42(5): 1451
作者单位
摘要
1 云南省农业科学院药用植物研究所, 云南 昆明 650200
2 云南中医药大学中药学院, 云南 昆明 650500
黄精药材品质优劣与基原植物产地环境因子密切相关, 建立简单、 快速且能够准确鉴别药材产地的方法对保证其质量可控及用药安全具有重要的理论意义和应用前景。 研究中以云南、 四川和广西9个产地的133份滇黄精Polygonatum kingianum coll. et Hemsl根茎为试验材料, 采集衰减全反射-傅里叶变换红外光谱(ATR-FTIR)和紫外-可见光光谱(UV-Vis)数据预处理后分别建立单一光谱随机森林(Random forest, RF)模型; 将ATR-FTIR与UV-Vis数据直接串联完成低级融合, 提取两种光谱的主成分数(PCs)和潜在变量(LVs)以实现中级(中级融合PCs和中级融合LVs)和高级数据融合(高级融合PCs和高级融合LVs), 基于不同数据融合策略分别建立RF模型; 比较不同模型的正确率(ACC)、 灵敏度(SEN)和特异性(SPE), 筛选产地鉴别最佳模型。 结果显示, 不同产地滇黄精ATR-FTIR和UV-Vis峰型相似, 吸光度略有差异, ATR-FTIR显示14个共有峰, 与糖类、 甾体皂苷、 黄酮类和生物碱类物质有关, 其UV-Vis共有峰主要位于272及327 nm处, 与黄酮类物质有关; ATR-FTIR、 UV-Vis和低级融合的RF模型, 训练集和预测集ACC分别为(76.34%, 95.00%), (80.65%, 95.00%)和(83.87%, 100.00%), 但SEN和SPE值较低, 故不宜采用; 中级融合PCs和中级融合LVs的RF模型的SEN和SPE分别为大于0.91和0.98, 训练集ACC分别为91.40%和97.85%, 预测集ACC均为97.50%; 高级融合PCs和高级融合LVs的RF训练集ACC分别为77.42%和97.85%, 预测集ACC均为95.00%, 高级融合PCs的RF模型鉴别效果较差, 高级融合LVs的RF模型存在过拟合现象; 模型鉴别能力为中级融合LVs>中级融合PCs>低级融合> UV-Vis>ATR-FTIR>高级融合PCs; 提取LVs对产地鉴别的方法优于PCs; 中级融合LVs建立的RF模型鉴别ACC最高, SEN和SPE大于0.98, 模型性能最佳。 该方法可为黄精药用资源的科学评价提供理论依据和技术支撑。
滇黄精 产地鉴别 数据融合 数据衰减全反射-傅里叶变换红外光谱 紫外-可见吸收光谱(UV-Vis) Polygonatum kingianum Origin identification Data fusion ATR-FTIR UV-Vis 
光谱学与光谱分析
2021, 41(5): 1410
卢诗扬 1,2,*张雷蕾 1,2潘家荣 1,2杨德红 1,2[ ... ]朱诚 1,2
作者单位
摘要
1 中国计量大学生命科学学院, 浙江 杭州 310018
2 浙江省海洋食品品质及危害物控制技术重点实验室, 浙江 杭州 310018
现在樱桃市场上存在着大量以次充好的不良现象, 严重损害了名牌樱桃的品牌经济效益, 所以亟需一种能对不同产地樱桃实现快速无损鉴别的技术。 拉曼光谱溯源技术作为光谱溯源技术的一种, 由于具有快速、 高效、 无污染、 无损分析等优点, 逐渐得到相关研究者的重视。 长短期记忆(LSTM)网络是一种具有记忆性的反馈神经网络, 它是循环神经网络的一种变体。 LSTM网络克服了循环神经网络中梯度消失的缺点, 适合处理序列敏感的问题和任务, 目前被广泛应用在语音识别、 图像识别和手写识别等领域, 但LSTM网络在产地溯源方面的应用还有待研究。 基于此, 提出了一种LSTM网络与拉曼光谱技术结合的能对不同产地樱桃实现快速无损鉴别的技术。 将来自美国、 山东和四川的369个樱桃作为研究样本, 用拉曼光谱仪在785 nm激光下获得了不同产地樱桃的光谱数据。 并且以每条经过基线校正后的拉曼光谱数据作为网络输入数据, 基于LSTM网络构建了能对不同产地樱桃实现快速鉴别的判别模型, 并且以样本判别准确率A、 样本精确率P、 样本召回率R和样本F值作为评价指标, 探究了不同预处理方法对LSTM网络判别模型性能的影响。 结果表明: 当样本训练集和测试集的比例为85∶38时, 直接采用原始拉曼光谱数据的LSTM网络模型的产地鉴别能力不高, 鉴别准确率为79.87%。 但当使用预处理过后的拉曼光谱数据, 模型的鉴别准确率维持在92%以上。 并且光谱经过SG+MSC预处理后模型的鉴别准确度最好, 鉴别准确率达99.12%。 同时在采用SG+MSC预处理的方法下, LSTM网络鉴别模型的精确率、 召回率、 F值均较高, 表明了所提出的LSTM网络模型有较好的性能可实现对不同产地樱桃的鉴别, 为樱桃的产地溯源提供了一种新的思路。
长短期记忆网络 拉曼光谱 产地鉴别 樱桃 Long short-term memory network Raman spectroscopy Origin identification Cherry 
光谱学与光谱分析
2021, 41(4): 1177
作者单位
摘要
1 云南农业大学资源与环境学院, 云南 昆明 650201
2 云南农业大学农学与生物技术学院, 云南 昆明 650201
3 云南省农业科学院药用植物研究所, 云南 昆明 650200
绒柄牛肝菌(Boletus tomentipes Earle)是一种健康食品, 受广大消费者的青睐, 其子实体营养物质积累量受生长环境(海拔、 气候等)影响, 不同产地间营养物质含量差异显著, 为去劣存优, 急需建立一种准确、 快速、 廉价的产地鉴别技术。 采用数据融合策略结合随机森林算法(RF)对绒柄牛肝菌的产地进行鉴别, 比较了多种特征值提取方法对RF模型分类效果的影响。 扫描来自4个产地(北亚热带、 北温带、 南亚热带、 中亚热带)87个样品不同部位的傅里叶变换近红外光谱和傅里叶变换中红外光谱, 分析其光谱特征。 通过Kennard-Stone算法将所有样品划分为2/3的训练集(58)和1/3的验证集(29), 基于4种红外光谱(近红外的菌柄(N-b)、 近红外的菌盖(N-g)、 中红外的菌柄(M-b)、 中红外的菌盖(M-g))与三种数据融合策略(低级融合、 中级融合、 高级融合)的数据, 结合RF建立产地鉴别模型, 比较了不同方法提取的特征值(投影重要性指标值、 Boruta、 潜在变量)对模型分类效果的影响。 其中, 根据袋外错误率(oob)选择最优ntree和mtry; 以特异性、 灵敏度、 训练集正确率和验证集正确率评价模型分类性能, 综合多种评价指标, 找出绒柄牛肝菌产地鉴别的最佳方法。 结果表明: (1)近红外和中红外光谱均能反映不同产地绒柄牛肝菌间存在的细微差异。 (2)单一光谱结合RF建立判别模型效果不理想。 (3)三种融合策略均可提高绒柄牛肝菌的产地鉴定效果, 产地鉴别效果优劣依次为高级融合、 中级融合、 低级融合。 通过扫描绒柄牛肝菌近红外和中红外光谱, 采用基于特征值LV的高级融合策略, 结合RF建立不同产地绒柄牛肝菌鉴别模型, 有高验证集正确率(99.6%), 高灵敏度(0.969), 高特异性(0.986), 实现了绒柄牛肝菌产地的准确、 快速、 廉价鉴别, 可以作为绒柄牛肝菌产地溯源的一种可靠方法。
绒柄牛肝菌 产地鉴别 数据融合 傅里叶变换中红外光谱 傅里叶变换近红外光谱 Boletus tomentipes Geographic origin identification Data fusion Fourier transform mid-infrared spectrum Fourier transform near infrared spectrum 
光谱学与光谱分析
2020, 40(5): 1495
刘倩 1,2秦晔琼 2刘曙 2,*李晨 2[ ... ]邢彦军 1
作者单位
摘要
1 东华大学化学化工与生物工程学院生态纺织教育部重点实验室, 上海 201620
2 上海海关工业品与原材料检测技术中心, 上海 200135
铜精矿是冶炼铜及其合金的基础工业原料, 不同产地进口的铜精矿在元素组成、 含量上存在着差异, 进口铜精矿伪报、 掺杂、 有害元素超标案件多发, 危害国家经济安全。 因此建立入境铜精矿产地识别模型, 将有助于风险分级, 预警。 该研究对象为智利、 秘鲁、 菲律宾、 西班牙、 纳米比亚、 伊朗、 马来西亚和阿尔巴尼亚8个国家进口铜精矿的280批次铜精矿样品。 应用波长色散-X射线荧光光谱无标样分析法测定所有研究样品的元素组成及含量, 结果表明铜精矿样品的检出元素共计53种。 选择O, Mg, Al, Si, P, S, K, Ca, Ti, Fe, Cu, Zn, Mn, As, Mo, Ag和Pb共17种元素含量作为变量, 建立进口铜精矿国别的BP神经网络预测模型。 采用F-score筛选出O, Mg, Al, Si, P, S, K, Ca, Cu, Zn, Mo, Ag和Pb共13个元素的含量作为特征变量, 分别建立进口铜精矿国别的Fisher判别分析预测模型和BP神经网络预测模型。 3种预测模型的结果如下: 采用F-score筛选变量的Fisher判别分析模型对建模样品的识别准确率为94.2%, 交叉验证准确率为92.9%, 对预测样品的识别准确率为96.7%; 输入层为17与13个变量的BP神经网络的训练集, 校正集, 验证集, 建模集以及预测样品的准确识别率分别为: 100%, 97.1%, 94.1%, 98.2%, 100%与100%, 97.1%, 100%, 99.6%, 100%。 比较3次建模的结果可知, 经过F-score筛选变量后用BP神经网络所建模型的准确识别率最高, 该方法不仅可以减少建模的输入变量还可以提高识别准确度。 波长色散-X射线荧光光谱无标样分析虽是半定量分析方法, 但具有分析速度快和稳定性好的优点, 利用该方法结合F-score筛选变量用于BP神经网络模式识别可以实现对铜精矿的国别识别。
铜精矿 X射线荧光光谱 BP神经网络 判别分析 产地识别 Copper concentrate X-ray fluorescence spectrum BP neural network Discriminant analysis Origin identification 
光谱学与光谱分析
2020, 40(9): 2884

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!