1 广西警察学院信息技术学院, 广西 南宁 530028
2 桂林电子科技大学计算机与信息安全学院, 广西 桂林 541004
药品质量关乎人民健康和国家命脉, 随着社会经济的飞速发展对药品质量的快速、 有效鉴别具有极其重要的作用。 光谱分析技术具有较高的准确性、 较快的分析速度且对样品不存在污染等突出优点, 广泛应用在化工、 石油以及医药等重要的领域。 为了解决传统药品鉴别模型存在的鉴别精度低、 鉴别速度不能满足实际需求且鉴别模型稳定性差的问题, 采用光谱仪采集药品的近红外光谱数据达到对药品无污染鉴别的目的。 结合随机森林和CatBoost对药品进行分类鉴别, 以实现快速且准确的鉴别。 首先采用随机森林(RF)对光谱仪采集的光谱数据进行有效特征波长的筛选, 从而将药品光谱数据中的无关波长去除、 筛选出最能表征样品属性的特征波长, 然后以极限学习机(ELM)作为CatBoost的弱分类器分析筛选的特征波长对药品的属性鉴别。 由于ELM仅只含有一个隐含层且无需多次迭代寻优保证了鉴别模型运行速度更快, CatBoost通过集成弱分类器以改善模型鉴别准确性。 为对所提出的药品鉴别模型性能进行有效评估, 采用随机抽取训练集的方式构造不同规模药品光谱数据并分别上进行独立实验且以10次运行结果的均值作为其最终结果, 并通过与CatBoost、 持向量机(SVM)、 反向传播网络(BP)、 ELM、 波形叠加极限学习机(SWELM)和Boosting进行对比, 进一步对模型的性能进行评估。 从不同规模训练集的分类结果可看出, 随着训练集样本的增加分类精度最高为100%且预测标准偏差趋于0。 实验结果表明, 所建立RF-CatBoost鉴别模型在不同规模的药品数据集上较对比方法具有更高的分类准确率、 更快的速度且其鲁棒性更强, 能够广泛应用于药品类别的准确鉴别, 从而实现药品质量的有效监督。
近红外光谱 随机森林 极限学习机 Near-infrared spectroscopy Random Forest Extreme learning machine CatBoost CatBoost 光谱学与光谱分析
2022, 42(7): 2148
1 桂林电子科技大学计算机与信息安全学院, 广西 桂林 541004
2 桂林电子科技大学商学院, 广西 桂林 541004
3 北京邮电大学人工智能学院, 北京 100876
4 中国食品药品检定研究院, 北京 100050
近红外光谱分析技术对检测样品无损伤且检测速度快、 精度高, 因此被广泛应用在了药品检测、 石油化工等领域, 尤其近年来机器学习和深度学习建模方法的深入应用使其具备了更准确的检测性能。 然而, 样品的近红外光谱数据具有比较高的维度且存在谱间重合、 共线性和噪声等问题, 对近红外光谱模型的性能产生消极影响, 此时样品有效特征波长的筛选极为重要。 为了提高近红外光谱定量和定性分析模型的准确性和可靠性, 提出了一种近红外光谱变量选择方法, 其结合了最小角回归(LAR)和竞争性自适应重加权采样(CARS)的优点, 具有更优的性能。 该方法利用LAR初步筛选样品全谱区的特征波长, 接着利用CARS对筛选出来的特征波长进一步选择, 从而有效去除无关特征波长。 为验证该方法的有效性, 从定量和定性分析两个方面评价该方法。 在定量分析实验中, 以FULL, LAR, CARS, SPA和UVE作为对比方法, 以药品样品数据集为实例建立PLS回归分析模型, 经LAR-CARS筛选出的变量建立的PLS模型在药品数据集表现出较高的预测决定系数和较低的预测标准偏差。 在定性分析实验中, 以SVM, ELM, SWELM和BP作为对比方法、 不同比例训练集的药品数据集为实例建立分类模型, 经LAR-CARS筛选出的变量建立的SVM分类模型精度最高达100%。 从实验结果可见, LAR-CARS可有效的筛选出表征样品特征的波长, 利用其筛选出的波长建立的定量、 定性分析模型具有更好的鲁棒性, 可用于样品光谱的特征波长筛选。
近红外光谱 波长筛选 最小角回归 自适应重加权采样 Near infrared spectroscopy Wavelength selection Least angle regression Competitive adaptive reweighted sampling 光谱学与光谱分析
2021, 41(6): 1782
光子学报
2020, 49(10): 1010002