考虑多种因素的近红外光谱血糖预测模型对比 下载: 995次
1 引言
基于光谱检测技术的血液成分检测[1-4]因其无创伤、快速和无污染等特点成为研究的热点,在血液无创检测中有广泛的应用。无创的血糖浓度测量有多种方法[5],其中光谱法有较好的预测结果。将光源照射人体部位如手指、耳垂等,用光电探测器测得光强。由于心脏的搏动,动脉血管中的血液吸光度呈周期性变化,因此接收到的光强值呈现周期性变化。进一步处理光谱可以预测得到血糖浓度。在无创血液检测的过程当中,受到个体差异和血液中其他成分等多种因素影响,利用近红外光谱预测血液的模型达不到临床精度要求。基于包含多种因素的测量理论[6-8],在近红外光谱无创血液测量过程中,需将多种影响因素考虑在内建立模型,以提高测量精度。本文以血糖浓度值为例,在测量过程中得到动态光谱数据,并且将甘油三酯、白蛋白、球蛋白、胆固醇、年龄等5种非测量组分数据考虑在内,用这些数据进行建模,得到血糖浓度的预测值。
2 实验方案
实验方案如
血糖浓度预测模型的建立基于支持向量机(SVM)[9]的方法,SVM在解决小样本、非线性以及高维模式识别中表现出特有的优势。可根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折中,以求获得最好的推广能力。模型建立基于Libsvm-3.22工具箱,Libsvm是台湾大学林智仁(Lin Chih-Jen)教授等设计开发的一个易于使用且快速有效的SVM模式识别与回归的软件包。
3 实验过程及结果
在建立模型的过程中将非测量组分影响因素也作为自变量输入模型,以减小其对测量系统的影响。采用非线性算法SVM来建立将非测量组分考虑在内的血糖预测模型,并与未将非测量组分考虑在内的血糖预测模型进行对比。
将实验测得的样本进行筛选[10],剔除无效数据,并对光谱数据进行预处理[11-12],得到有效样本数192组,每个样本的有效光谱数据为606个。建立模型时,血糖真值数据作为因变量矩阵
将建模数据按血糖浓度进行从小到大排序,以保证训练集血糖样本浓度覆盖预测集的血糖样本浓度。按照3∶1的比例划分训练集和预测集,选取144例样本进行建模,48例样本进行预测。考虑和未考虑非测量组分的模型,均按此标准选择训练集和预测集样本数据。
3.1 SVM建立考虑非测量组分的血糖校正模型
SVM模型建立过程如下。
第一步:对输入的自变量和因变量数据进行归一化操作。将其包含数据的概率分布统一归纳到上述区间,使其处于同一数量级,提高训练效率。归一化公式为
第二步:寻找合适的惩罚因数
对于血糖模型来说,无法在训练模型之前得知血糖模型的最优参数值。因此需通过网格法来寻找最优的参数。网格法参数寻优的原理是通过对所有可能的参数在一定的范围内进行网格划分,并且遍历网格中所有点进行穷举,一一进行实验,找到分类准确率最高时所对应的参数值。根据该方法,得到
第三步:寻找合适的核函数。在实验过程中,分别使用线性核函数和径向基核函数(RBF核函数)对考虑非测量组分的数据建立矫正模型,模型结果如
图 2. 考虑非测量组分的RBF建模结果。(a)预测值和真值;(b)相对误差
Fig. 2. RBF modeling results with non-measurement-component considered. (a) Predicted values and true values; (b) relative errors
图 3. 考虑非测量组分线性核函数建模结果。(a)预测值和真值;(b)相对误差
Fig. 3. Linear kernel function modeling results with non-measurement-component considered. (a) Predicted values and true values; (b) relative errors
线性核函数建立的模型预测值和血糖真值的相关系数为0.9437,均方根误差为0.14。计算得出RBF核函数建立的模型预测集相关系数为0.9627,预测集均方根误差(RMSEP)为0.13。相较线性核函数,预测集相关系数增加了2.01%,预测集均方根误差减小了7.14%。对比这些指标可知,对于将非测量组分考虑在内的血糖模型来说,RBF核函数建立的模型质量更高,稳健性更好。
3.2 SVM建立未考虑非测量组分的血糖校正模型
根据上述数据,对于血糖模型来说,RBF核函数建立模型稳健性更好,所以在不考虑非测量组分数据时也使用RBF核函数建立校正模型。重复上述建模步骤,选出惩罚系数
图 4. 未考虑非测量组分的模型结果。(a)预测值和真值;(b)相对误差
Fig. 4. Modeling results without non-measurement-component considered. (a) Predicted values and true values; (b) relative errors
根据模型预测结果计算可得,未将非测量组分考虑在内建立的模型预测值和血糖真值的校正集相关系数为0.9344;校正集均方根误差(RMSEC)为0.17;预测集相关系数为0.8655;预测集均方根误差为0.23。从
3.3 结果分析
对于建立的校正模型,均采用相关系数
所建模型相对误差如
非测量组分考虑在内的模型和未将非测量组分考虑在内的模型均使用SVM建模,各模型指标如
表 1. 各模型指标
Table 1. Model parameters
|
对比将胆固醇、甘油三酯、白蛋白、球蛋白、年龄5种非测量组分考虑在内和未将非测量组分考虑在内建立的模型,前者的预测结果均优于后者的预测结果。前者比后者预测集相关系数提高14.23%,预测集均方根误差减少43.12%,相对误差在10%范围内的样本数量多8.33%。相较于仅使用光谱数据建模,将5种非测量组分考虑在内的血糖测量系统的预测精度显著提高。
4 结论
通过对192个样本的光谱数据以及非测量组分进行分析,并结合生化分析结果,使用SVM的方法,分别建立了考虑和未考虑非测量组分的血糖浓度预测模型。通过对比模型建立结果可知,将非测量组分考虑在内的预测结果相关系数增大,均方根误差减小,相对误差减小,预测精度优于未将非测量组分考虑在内的预测结果。在血液成分的无创测量中可采用此种方法来提高测量精度。
[1] 杨星, 季忠, 杨力, 等. 基于近红外光谱法的无创血糖检测原理与研究现状[J]. 生物医学工程学杂志, 2013, 30(1): 204-207.
[2] 王晓飞, 赵文俊. 基于动态光谱法的多波长脉搏血氧饱和度测量[J]. 光谱学与光谱分析, 2014, 34(5): 1323-1326.
[3] 张洋, 倪敬书, 张元志, 等. 组织固有荧光光谱复原算法及其在糖尿病筛查中的应用研究[J]. 中国激光, 2018, 45(7): 0707001.
[4] 李东明, 贾书海. 基于多光谱应用BP人工神经网络预测血糖[J]. 激光与光电子学进展, 2017, 54(3): 031703.
[5] 孙凯, 周华, 杨膺琨, 等. 血糖监测系统的研究进展[J]. 中国激光, 2018, 45(2): 0207003.
[6] 李刚, 李哲, 王晓飞, 等. 测量模式的演进与“M+N”理论的提出[J]. 北京信息科技大学学报(自然科学版), 2013, 28(2): 9-13.
[7] 徐馨荷, 王晓飞. 基于“M+N”理论的近红外光谱血糖无创测量方法[J]. 实验室研究与探索, 2018, 37(2): 5-9, 14.
[8] 李丽, 王晓飞, 卢恺. 基于“M+N”理论的近红外光谱血氧饱和度无创测量方法[J]. 生物医学工程学杂志, 2016, 33(5): 885-889.
[9] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016: 121- 145.
Zhou ZH. Machine learning[M]. Beijing: Tsinghua University Press, 2016: 121- 145.
[10] 李刚, 王慧泉, 赵喆, 等. 动态光谱数据质量的评价[J]. 光谱学与光谱分析, 2010, 30(10): 2802-2806.
[12] 李刚, 熊婵, 王慧泉, 等. 动态光谱的单拍提取[J]. 光谱学与光谱分析, 2011, 31(7): 1857-1861.
[13] 林凌, 李永城, 王蒙军, 等. 基于统计方法的动态光谱差值提取[J]. 光谱学与光谱分析, 2012, 32(11): 3098-3102.
王晓飞, 张欣怡, 徐馨荷. 考虑多种因素的近红外光谱血糖预测模型对比[J]. 激光与光电子学进展, 2019, 56(4): 041701. Xiaofei Wang, Xinyi Zhang, Xinhe Xu. Comparison of Multi-Factor-Considered Blood Glucose Prediction Models by Near-Infrared Spectroscopy[J]. Laser & Optoelectronics Progress, 2019, 56(4): 041701.