结合高光谱图像的光谱和纹理信息预测羊肉可溶性蛋白和GSH含量
1 引言
谷胱甘肽(GSH)[1,2]是羊肉体内重要的水溶性抗氧化剂, 是一种普遍存在的内源性生物硫醇, 在动物体内提供解毒代谢的作用, 因而GSH是维持生命系统抗氧化能力的重要指标, 大多数酶类的代谢都要可溶性蛋白质参与, 同时也是测定GSH含量的一个重要指标, 因此可以将可溶性蛋白和GSH含量当做肉类新鲜度检测指标。 当前常规检测方法为分光光度计法, 此方法虽然可靠, 但耗时、 费力。 故选用一种快速准确的方法来定量检测羊肉中可溶性蛋白和GSH含量非常必要。
高光谱成像技术可以提供样本的光谱和空间信息, 它作为一种无损、 实时的食品质量分析和检测工具越来越受到人们的重视[3,4]。 其纹理信息在肉品领域应用逐渐变广。 Xiong[5]等应用光谱和纹理数据相结合区分散养鸡和肉鸡, 分类正确率达93.33%。 孙宗保等[6]采用光谱和纹理信息鉴别冰鲜和冻融三文鱼及其冻融次数, 取得了较好的效果。 Lin等[7]利用高光谱图谱融合技术对猪肉肌内脂肪含量进行预测。 Yang[8]等采用高光谱图谱合一的特点, 提取熟牛肉样本30个纹理信息结合反向人工神经网络(back propagation-artificial neural networks, BP-ANN)模型对熟牛肉的存储时间和含水率进行预测。 Zhang等[9]利用信息融合的方法预测鲑鱼的脂肪和水分, 校正预测相关系数均高达0.95以上。 这些研究显示融合信息均优于仅光谱或图像纹理信息的结果, 这表明光谱和图像纹理数据结合不仅可以对肉品品质进行定性判别, 也能够用来对理化指标定量预测分析。 但据了解, 近几年国内外学者利用光谱技术对植物酶类有研究, 但尚未见光谱数据和图像纹理信息融合来确定羊肉可溶性蛋白和GSH含量的相关研究报道。
本研究的主要目的是利用光谱和图像纹理信息相结合来预测羊肉可溶性蛋白含量和GSH含量。 通过采集羊肉样本的可见-近红外(400~1 000 nm)高光谱数据, 利用4种预处理方法2种变量选择工具筛选出最优预处理方法和特征波长方法; 并使用灰度共生矩阵法提取羊肉样本纹理信息, 通过基于光谱数据及其光谱和纹理融合信息建立线性和非线性预测模型预测羊肉可溶性蛋白含量和GSH含量, 并利用伪彩色图绘制其空间分布图。
1 实验部分
1.1 羊肉样本采集与处理
羊肉样本采自宁夏盐池县鑫海食品有限公司, 共计60只羊。 经屠宰后, 将其胴体冷藏于4 ℃条件下进行48 h排酸处理, 排酸完成后, 取60只羊胴体前腿肉、 后腿肉、 背最长肌各一块肉, 最终得到羊肉样本180个。 为保持样本的一致性, 将羊肉制备成体积大小为(35 mm×25 mm×10 mm)的肉块, 并于4 ℃冰箱储藏备用为后续光谱采集和化学值测定。
1.2 高光谱数据采集
高光谱图像由可见-近红外(波长范围400~1 000 nm)高光谱成像系统获取。 为消除图像模糊及以及传感器暗电流的影响, 需在图像采集前进行对焦及黑白校正, 经多次实验确定的采集参数为: 扫描线长度60 mm, 物距380 mm, 电控位移平台初始速度1.5 mm·s-1 。
1.3 羊肉可溶性蛋白和GSH含量测定
在获取高光谱图像后, 测定羊肉可溶性蛋白和GSH含量。 称取1.000 0 g羊肉样本, 制备组织上清液, 利用紫外分光光度计测定吸光度在595和420 nm处可溶性蛋白和GSH含量。
1.4 光谱数据分析
1.4.1 光谱预处理
在光谱采集过程中, 由于外部环境和仪器的影响导致光谱信号容易受到大量随机噪声的干扰, 不利于提高预测模型的准确性, 故需要对光谱进行预处理[10]。 为筛选出较好的预处理方法, 采用卷积平滑(savitzky-golay, SG)、 标准正态变量变换(standard normal variate, SNV)、 正交信号校正(orthogonal signal correction, OSC)、 去趋势法(detrend)共4种预处理方法。
1.4.2 特征波长提取
有效的特征波长提取能够删除与样本成分无关的信息, 提取最能代表肉样的有效信息, 缩短计算时间[11]。 采用CARS和iVISSA-IRIV提取特征波长方法来简化模型, 提升模型性能。 CARS是一种新的变量选择方法, 它可以在消除新的变量的同时有效减少共线变量对模型的影响[12]。 区间变量迭代空间收缩法(interval variable iterative space shrinkage approach, iVISSA)是一种基于交叉验证均方根误差(RMSECV)的波长间隔选择方法。 它经过多次迭代, 交替使用全局和局部过程来优化间隔位置, 直至优选出最佳特征变量[13]。 迭代和保留信息变量法(iteratively retaining informative variables, IRIV)是基于二进制矩阵变换滤波器的思想提出的一种新的变量选择方法, 该方法采用BMS作为变量空间采样方法, 迭代保留信息变量, 直到不存在干扰变量。 利用IRIV法对iVISSA法筛选出的波长进行二次提取, 形成了一种变量选择的混合方法, 解决了变量数量多的问题。
1.4.3 图像纹理信息提取
纹理是图像应用中最重要的特征之一, 表示的是相邻像素之间的强度关系, 表示灰度像素之间关系的常用方法叫做灰度共生矩阵法(GLCM), 其描述了不同灰度组合在一幅图像中同时出现的频率, 常被用来提取图像纹理信息。 由于不同方向和距离的图像可以构成不同的灰度共生矩阵, 故本研究中距离设置为1, 依次取不同方向(0°, 45°, 90°和135°)的能量(energy)、 熵(entropy)、 同质性(homogeneity)和相关性(correlation)四个特殊相互独立的特征来描述共生矩阵数据[9]。 从每幅图片中共选取16个纹理参数用于后续建模。
2 结果与讨论
2.1 可溶性蛋白和GSH含量描述统计
如图1所示, 可溶性蛋白和GSH含量在不同部位之间存在显著差异。 羊肉背最长肌的可溶性蛋白含量最高, 而GSH含量最低, 这种差异可能是由不同部位之间的理化特征引起的。 也可能与羊不同部位活动量不同有关, 由于前腿和后腿相对于背最长肌运动较多, 运动会增加有氧代谢, 故GSH含量相对较高。
图 1. 不同部位可溶性蛋白和GSH含量统计分析图
Fig. 1. Statistical analysis of soluble protein and GSH contents in different parts
对提取到的光谱数据进行建模, 需要仔细选择校正集, 使其能够代表用于校准的样本。 因此, 180个羊肉样本经剔除9个异常样本后, 按照3:1比例分为校正集(n=128)和预测集(n=43)两个子集共计171个羊肉样本, 利用校正集构建模型, 预测集检验模型性能。 由表1可知, 校正集样品的范围涵盖了预测集范围, 故可使用预测集中的样本来检验最终模型性能。 此外, 可溶性蛋白和GSH分布值范围较宽, 表明化学分析结果具有代表性, 可用于后续模型。
表 1. 羊肉可溶性蛋白和GSH含量样本集划分统计结果
Table 1. Statistical of soluble protein and GSH contents of mutton of sample sets
|
2.2 羊肉样本光谱特征分析
图2(a)为171个羊肉样本的原始光谱图像, 429和540 nm附近的光谱反射率可能与氧合血红蛋白有关[14]; 479, 723和799 nm附近的高反射率可能与蛋白质组分中—NH3—基团吸收以及C—H倍频和脂肪中C—O倍频的综合作用有关; 在900~1 000 nm波长范围内的光谱峰值与羊肉样本水分子吸收带有关[6]。 这些光谱差异可用于后续预测羊肉样本可溶性蛋白和GSH含量。 图2(b)为羊肉样本前腿、 后腿、 背最长肌的光谱值求平均值并作出平均光谱图。 图2(b)中羊肉样本不同部位光谱曲线呈现相似趋势, 其中在450~525和600~1 000 nm波长范围之间, 前腿的光谱反射率均为最高, 后腿最低; 525~600 nm波长范围之间, 背最长肌光谱反射率最高, 后腿反射率最低。 可以发现, 后腿的在全波段光谱反射率均为最低。 这些差异可能与羊肉样本的主要化学成分有关。
图 2. 羊肉样本的原始光谱图(a)与不同部位平均光谱图(b)
Fig. 2. Raw (a) and average spectra (b) of mutton samples
2.3 不同预处理方法的高光谱建模分析
如表2所示, 未经预处理的原始光谱建立的可溶性蛋白含量模型建模效果最好, Rc和Rp分别为0.875 7和0.854 7, 并且RMSEC和RMSEP均为最低。 SNV方法预处理后建立的羊肉样本GSH含量模型的Rc和Rp分别为0.804 8和0.826 5, 说明SNV方法能够去除与羊肉GSH含量无关的冗余信息, 提高了模型的预测性能。 因此在后续的变量筛选中, 采用原始光谱建立可溶性蛋白含量模型, SNV作为建立GSH含量模型所用预处理方法。
表 2. 不同预处理方法的羊肉指标PLSR模型
Table 2. PLSR models for mutton indicators by different pretreatment methods
|
2.4 特征波长提取
2.4.1 CRAS法特征波长提取
采用CARS法、 iVISSA-IRIV 2种方法提取特征波长。 经过多次试验, 设置CARS算法参数为: 主成分数为10, 数据选用“center”处理方式, 十折交叉验证, 其中, 可溶性蛋白蒙特卡洛采样次数设置为350, GSH的采样次数为500。 如图3所示为可溶性蛋白和GSH的CARS算法挑选特征波长过程。 图3A(a)表示随着抽样运行次数的增加, 抽样波长数的变化。 图3A(b)表示为抽样运行期间的十折交叉验证值RMSECV变化, 在运行至第83次时该值最小, 此时变量个数逐步减少导致部分有效信息被消除, 模型精度下降; 图3A(c)为每次采样过程中回归系数的变化路径, 最左边的粗竖线代表当采样运行次数为21次时RMSECV值最小, 此时与羊肉可溶性蛋白无用的信息被剔除, 最终共选取有效信息最多的48个特征波长变量。 CARS方法提取羊肉GSH含量样本的特征波长情况如图3(b)所示, 共提取出19个特征波长。
图 3. CARS法特征波长的筛选
A: 可溶性蛋白含量; B: GSH含量
Fig. 3. Characteristic wavelengths selected by CARS algorithm
A: soluble protein content; B: GSH content
2.4.2 iVISSA-IRIV特征波长选取
利用iVISSA-IRIV融合方法对光谱特征波长进行筛选, 采样次数设置为50。 图4(a)为iVISSA算法在迭代过程中各个波长的采样权重值随迭代次数的变化情况。 此三维立体图X, Y, Z坐标轴分别代表波段数、 迭代次数、 权重, 结合色度带上方绿色部分采样权重接近1, 此时有效信息被保留, 下端紫色部分则采样权重值接近0, 这部分波段为无效信息被剔除, 而采样权重处于0~1之间时, 相应的那些波长会重新在迭代循环中继续被选择, 直到所有特征波长选择完毕, 经过25次迭代, 采样权重基本不变, 共筛选出52个特征波长, 特征波长数仍然占总波长数的41.6%, 会造成信息冗余, 增加计算难度和时间, 故需再通过IRIV算法二次提取特征波长。 如图4(b)所示羊肉可溶性蛋白含量iVISSA-IRIV法特征波长筛选图, 柱条表示提取的31个特征波长。 而同理可得, 经iVISSA-IRIV算法提取的GSH含量样本的特征波长结果如图5所示, 图5(b)为羊肉GSH含量iVISSA-IRIV法特征波长筛选图, 共提取29个特征波长。
图 4. 可溶性蛋白含量iVISSA-IRIV法筛选特征波长
Fig. 4. Selection of characteristic wavelengths using iVISSA-IRIV algorithm for soluble protein concent
图 5. GSH含量iVISSA-IRIV法筛选特征波长
Fig. 5. Selection of characteristic wavelengths using iVISSA-IRIV algorithm for GSH content
2.5 建模结果分析
采用MLR和LS-SVM两种模型对提取出的特征波长进行有效性评价。 如表3所示, 与全波段相比, 提取特征波长建立的MLR和LS-SVM模型预测性能良好。 两种特征波长提取方法都能够达到降维目的, 提取有用信息, 但iVISSA-IRIV法经过两次提取特征波长, 解决变量数多的同时更多的保留有效信息, 故经iVISSA-IRIV法提取特征波长建模效果较优。 羊肉可溶性蛋白iVISSA-IRIV-LS-SVM为最优预测模型, 其Rc和Rp分别为0.914 6和0.881 8, 且均方根误差均最低。 表明基于非线性的LS-SVM模型的性能优于线性MLR模型, 说明羊肉可溶性蛋白含量与光谱吸收之间具有较强的非线性关系。 羊肉GSH含量iVISSA-IRIV-MLR为最优预测模型, 其Rc和Rp分别为0.844 6和0.870 5, 比原始光谱建模Rc和Rp高了0.046和0.097 1, 说明在建模过程中, 羊肉GSH含量不利于非线性预测模型的建立。 综上所述, 羊肉光谱信息经iVISSA-IRIV法提取特征波长后, 建立的羊肉可溶性蛋白和GSH含量预测模型取得了较好的建模效果, 表明iVISSA-IRIV法对光谱数据进行降维简化了定量分析模型的复杂性, 提高了模型的预测能力。
表 3. 不同特征波长和模型的羊肉可溶性蛋白和GSH含量预测结果
Table 3. Prediction results for soluble protein and GSH content in mutton using different characteristic wavelengths and models
|
2.6 光谱特征和纹理信息融合建模分析
为了进一步分析羊肉内部属性和外部属性对可溶性蛋白和GSH含量预测模型的影响, 采用提取的最优特征波长和纹理信息进行融合, 建立基于光谱信息和纹理特征融合信息的MLR模型以及LS-SVM模型。 因为高光谱成像在某个特定波长下图像也反映样本化学成分基团对光子吸收后的反射光谱图像, 其对某个特征也会有较显著的反映, 因此图像纹理特征在一定程度上能够反映化学成分以及结构方面的差异。 如图6所示为对高光谱图像进行主成分分析后提取的主成分图像贡献率99.50%的3个主成分图像, 主成分贡献率依次为98.59%, 0.79%和0.12%, 故采用第一张最优主成分图像进行后续纹理提取, 将提取的图像纹理信息和提取的光谱特征信息进行融合建模分析。
如图7所示为经全波段、 iVISSA-IRIV特征波段和光谱纹理融合信息建立的MLR和LS-SVM模型。 可以看出羊肉可溶性蛋白和GSH含量光谱纹理融合信息建立的MLR和LS-SVM模型取得了较好的预测效果。 如图7(a)所示, 利用光谱和纹理信息融合建立的羊肉可溶性蛋白含量MLR模型预测性能较好, 其Rc和Rp达到0.911 4和0.878 7; 但比iVISSA-IRIV光谱信息的LS-SVM模型略低0.003 2和0.003 1, 故利用光谱特征信息建立的LS-SVM为羊肉可溶性蛋白最佳模型, 这可能是因为利用光谱特征信息建立LS-SVM模型比纹理信息携带的信息更多, 羊肉样本的内部成分比其外部属性的联系更加紧密, 也可能是现在所选用的纹理特征提取方法不适用与当前的羊肉样本的图像, 但融合信息建立的模型精度仅仅比光谱信息建模精度略低, 说明利用图像纹理信息还是可行的。
图 7. 模型结果对比图
(a): 羊肉可溶性蛋白含量模型对比图;(b): 羊肉GSH含量模型对比图
Fig. 7. Comparison of model results
(a): Comparison chart for soluble protein content in mutton;(b): Comparison chart for GSH content in mutton
如图7(b)所示为羊肉GSH含量模型对比图, 光谱特征波长与纹理信息融合建立的MLR模型和LS-SVM模型均有较好的预测效果, 均比全波段和iVISSA-IRIV法提取的特征波段建模结果好, 光谱和纹理信息融合建立的MLR模型效果更好, 比iVISSA-IRIV-MLR模型的Rc和Rp值高0.004 9和0.019 9。 证明结合羊肉样本的内部成分和外部属性可以很好的预测羊肉GSH含量, 因此光谱与纹理特征融合信息建立的MLR模型为预测羊肉GSH含量的最优模型。
2.7 羊肉可溶性蛋白和GSH含量空间分布可视化
利用最佳iVISSA-IRIV-MLR和iVISSA-IRIV-LS-SVM模型生成羊肉可溶性蛋白和GSH含量分布图。 通过提取羊肉高光谱图像中每个像素的光谱值, 然后结合最佳预测模型获取与化学值相关的权重系数, 以此来通过伪色彩图像的不同区域颜色差异及深浅来表示羊肉可溶性蛋白和GSH含量的分布情况。 从图8分布图可以看出, 随着羊肉可溶性蛋白和GSH含量逐渐减少, 红色逐渐减弱, 证明通过iVISSA-IRIV法选出的特征波段有很好的显示可溶性蛋白和GSH含量的能力, 并且通过可视化可以直观的看出其含量分布, 这是高光谱成像技术相对于常规光谱和成像技术的最大优势。
图 8. 羊肉可溶性蛋白和GSH含量空间分布可视化图
Fig. 8. Visualizations of spatial distributions of soluble protein and GSH contents in mutton
3 结论
探讨了利用高光谱图像的光谱和纹理信息快速预测羊肉可溶性蛋白和GSH含量的可行性。 主要结论如下: (1)通过对羊肉样本原始光谱进行4种预处理方法比较, 发现未经预处理的原始光谱建立的可溶性蛋白PLSR模型效果最好, 采用SNV法预处理后建立的羊肉GSH含量PLSR模型为最佳预测模型。 (2)利用CARS法和iVISSA-IRIV法对经预处理后的光谱提取特征波长, 其中iVISSA-IRIV-LS-SVM模型对羊肉可溶性蛋白含量预测有最佳效果, iVISSA-IRIV-MLR模型为羊肉GSH含量光谱数据最佳预测模型。 (3)进一步利用光谱特征和图像纹理融合信息建立MLR和LS-SVM模型对比发现, 通过光谱信息建立的iVISSA-IRIV-LS-SVM模型对羊肉可溶性蛋白含量的预测效果最好, 其Rc和Rp分别为0.914 6和0.881 8; 通过光谱和图像纹理融合信息建立的MLR模型对羊肉GSH含量的预测效果最佳, Rc和Rp分别为0.849 5和0.890 4。 综上所述, 羊肉可溶性蛋白含量与光谱之间具有较强的非线性关系, 建立的LS-SVM模型具有较好的预测性能, 基于光谱和图像纹理融合信息比单独光谱预测羊肉GSH含量更有效, 通过选取最佳光谱预测模型生成可视化分布图可直观看见羊肉可溶性蛋白和GSH含量分布, 结果表明利用高光谱图像的光谱和纹理信息对羊肉可溶性蛋白和GSH含量的预测是可行的, 可进一步改进该方法去预测肉品新鲜度。
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
Article Outline
乔芦, 王松磊, 郭建宏, 贺晓光. 结合高光谱图像的光谱和纹理信息预测羊肉可溶性蛋白和GSH含量[J]. 光谱学与光谱分析, 2022, 42(1): 176. Lu QIAO, Song-lei WANG, Jian-hong GUO, Xiao-guang HE. Combination of Spectral and Textural Informations of Hyperspectral Imaging for Predictions of Soluble Protein and GSH Contents in Mutton[J]. Spectroscopy and Spectral Analysis, 2022, 42(1): 176.