生物医学检测中太赫兹光谱技术的算法研究【《光学学报》创刊40周年庆】


 

《光学学报》40周年庆约稿| 朱亦鸣,施辰君,吴旭,彭滟. 生物医学检测中太赫兹光谱技术的算法研究[J]. 光学学报, 2021,41(1):0130001

微信阅读:

编者按

2021年是《光学学报》创刊40周年,编辑部特邀上海理工大学朱亦鸣教授课题组撰写《生物医学检测中太赫兹光谱技术的算法研究》综述论文。文章通过数据分析算法和数据处理算法两个环节,概述了近五年国际上在生物医学领域中,基于太赫兹光谱技术对这些算法的研究工作,并归纳了他们的优势和缺点。本文将在《光学学报》2021年第1期刊出,全文链接如下: http://www.opticsjournal.net/Articles/abstract?aid=OJd7204003346e784c ">http://www.opticsjournal.net/Articles/HPAbstract?manu_number=g200864

1、背景介绍

太赫兹 (THz) 波的波段位于毫米波区域和红外区域之间,其频率为0.1到10 THz,对应波长为0.3毫米到30毫米,兼具毫米波与红外波的特征,并具有非电离性、非侵入性、高穿透性、高分辨率和指纹谱识别的优势,因此在生物医学领域具有巨大应用潜力。

基于太赫兹光谱技术,国内外各个研究小组已研究并识别了多种生物分子,包括不同疾病的生物标记物, 药物以及脱氧核糖核酸(DNA)。除了这些纯品识别之外,许多研究小组结合分析算法实现了对混合物样品的定性、定量识别。

但是,由于实际生物样品包含水在内的大量不同成分,这些成分对太赫兹波产生大量吸收,导致光谱信噪比(SNR)较差,光谱分析结果误差较大。因此,有相关研究以不同降噪和重构算法作为辅助手段来提升光谱信噪,最终提升分析的准确率。


识别DNA(图片来自网络)

2、关键进展

目前的算法研究主要包括两个环节:1)数据分析算法;2)数据处理算法。对于数据分析算法,研究人员主要通过机器学习或线性回归算法对光谱数据进行分析建模,来实现生物样品的定性和定量识别。但是,当光谱的信噪比较差时,会导致建模误差,从而使最终预测准确率大幅下降,因此,有研究小组在应用这些分析算法前,先使用数据处理算法对光谱数据进行降噪或重构,经这些算法处理后的数据相比原始数据具有更高信噪比,从而提升了最终分析结果的准确率。本文基于这两个环节,总结了近五年国际上在生物医学领域中,基于太赫兹光谱技术对这些算法的研究工作,并归纳了他们的优势和缺点。


图1 应用于太赫兹光谱技术的不同算法

2.1 数据分析算法

在数据分析算法中,研究人员主要使用了偏最小二乘(PLS)回归和支持向量机/支持向量回归(SVM/SVR)。PLS是一种利用线性多元模型将两个数据矩阵X和Y进行关联的算法,它可将目标物质的浓度与混合物的光谱建立关联,从而实现定性、定量预测混合物中的成分。PLS算法步骤简单,只需要将光谱数据导入算法与浓度建立关系,因此计算时间较短,适合于用需要快速分析样本的成分。

但是,由于参数的全面性不足,模型准确率有限。SVM是一种机器学习算法,它在解决小样本、非线性和高维模式识别问题中具有独特优势;同时,基于SVM的回归算法——支持向量回归(SVR)更可以实现对物质的定量检测。相比PLS算法, SVM/SVR算法可以识别更低浓度的样品,且精度要高于PLS算法,但同时计算时间也大幅增加。

但是,由于参数的全面性不足,模型准确率有限。SVM是一种机器学习算法,它在解决小样本、非线性和高维模式识别问题中具有独特优势;同时,基于SVM的回归算法——支持向量回归(SVR)更可以实现对物质的定量检测。相比PLS算法, SVM/SVR算法可以识别更低浓度的样品,且精度要高于PLS算法,但同时计算时间也大幅增加。

此类分析算法一般需要具有较高信噪比的光谱用于训练模型,当光谱的信噪比较差时,会导致训练出的模型准确度大幅下降。因此,大部分研究会在分析前使用各类数据处理算法来优化光谱数据,间接提高分析算法的准确性。

2.2 数据处理算法

在数据处理算法中,研究人员主要使用了遗传算法、主成分分析(PCA)和小波变换。遗传算法是一种借鉴生物自然选择和自然遗传机制的随机搜索算法,可用于选取建立算法模型的最优变量,提升模型识别的准确率。但是遗传算法仅能从数据中直接提取有效信息,不会对这些信息进行转换提升区分度。PCA能够将一组高维度数据重构为称为主成分的新变量,这些变量是原始数据的线性组合,且第一个主成分具有最大的方差。因此PCA算法能在提取有效信息的同时重构光谱数据,将目标物质的特征更直观地表现出来。

但是,当光谱噪声过大时,这类算法会将光谱的噪声识别为光谱特征并进行提取,导致最终结果产生误差。因此,部分研究人员提出使用小波变换对光谱降噪。小波变换通常是将光谱信号拆解为对应不同频段的组分,进而去除代表噪声的高频组分,最后采用小波逆变换重组光谱信号。与传统的小窗傅里叶变换降噪相比,小波变换更适用于诸如太赫兹时域信号之类的瞬时变化的非平稳信号。同时,最常用的Savitzky-Golay平滑是将光谱进行整体平滑,因而会将光谱中物质的特征吸收和噪声一起去除。与之相比,小波变换能在去除光谱噪声的同时保留光谱的有效信息。

此类数据处理算法均通过提取有效信息或消除无关信息来提升光谱数据的信噪比,但是这些算法通常不具备分析功能,因此需要结合分析算法进行定性、定量分析。此外,这些算法通常包含各种参数,需要根据自身数据情况进行调整。设置参数错误可能会导致样品信息丢失,并导致最终光谱识别错误。

总结与展望

应用于数据分析的定性定量分析算法使用各类回归算法或机器学习算法对光谱进行识别,实现对样本的定性定量分析。但是,此类算法通常需要高信噪比的光谱来建立模型,而生物医学领域中,由于样本通常包含水在内的各种物质,光谱信噪比较差,导致建立的模型识别准确率较低。因此,在应用分析算法前,研究人员首先应用降噪重构算法,这些算法通过从光谱中提取可用于建立模型的关键信息,并消除了噪声信号,从而提高了光谱信噪比。之后,再应用分析算法对经处理的信号建立识别模型,能提高识别准确率。但是,此类算法一般需要结合样本实际情况设置各种参数,不当设置会导致样本的有效数据丢失。

目前的分析算法研究中,用于模型训练的样本与预测的样本均为同一类型的样本,他们的组分一致,仅在含量上有所区别。因此未来的研究应着重于使用不同的样本(除了含有目标组分以外,各个样本含有不同其他组分)来进行算法研究。

作者简介

朱亦鸣,男,教授,博士生导师,国家万人计划“中青年科技创新领军人才”,国家百千万人才,青年长江学者,国家基金委优秀青年科学基金、国务院特殊津贴获得者,作为负责人承担国家及地方课题项目二十余项,其中包括主持1项国家863计划,主持3项国家自然科学基金,作为子项目负责人承担国家重大基础研究项目973计划1项、国家重大科学仪器设备开发专项2项等。他以第一作者或通讯作者在SCI杂志发表论文100余篇(其中光电领域前5%的共40余篇),其中包括ESI论文5篇,并有2 篇文章入选期刊年度最佳论文,1 篇文章入选期刊论文亮点。