用于腹腔镜扶持器控制的特定人语音识别算法 下载: 1048次
1 引言
腹腔镜手术是将腹腔镜镜头以及相关的手术器械通过小型切口插入腹腔内进行的微创手术,具有创伤小、疼痛轻、恢复快等优点,是未来手术发展的必然趋势。在一般的腹腔镜手术中,助理医生手持扶持器,根据主刀医生的指示进行定位和手术操作。这种方法的优点是操作灵活,但是长时间手持无法保持腹腔镜器械的稳定,容易造成图像抖动和模糊;此外,由于不是主刀医生亲自操作,所以存在一定的安全隐患。鉴于此,法国Endo Control公司于2011年推出了语音控制的内窥镜扶持器;同年,德国的KARL STORZ公司开发出了一体化智能微创手术室,其中的SESAM声控系统用于远程控制手术室中的腹腔镜扶持器。上述内窥镜扶持器和智能微创手术室都是通过识别主刀医生的语音指令来实现主刀医生对腹腔镜的直接控制。但是国外的相关产品价格昂贵,而国内尚未出现该类成熟产品,因此用于腹腔镜扶持器控制的语音识别算法成为当前研究的热点。
根据识别的内容,可将语音识别分为语义识别和说话人识别(声纹识别)。而根据对说话人的依赖程度,可将语义识别分为特定人语音识别和非特定人语音识别。在腹腔镜手术中需要对主刀医生专人的语音进行识别,而拒绝识别其他人的语音,其中的核心技术为特定人语音识别。Abdulla等[1]将动态时间规整(DTW)算法用于特定人语音识别,该算法计算简单但识别准确率较低。近几年来,非特定人语音识别由于应用范围更广而得到了长足发展,特定人语音识别往往被分为两个相互独立的任务:非特定人语音识别和说话人识别。赵鑫等[2]将高斯混合模型-隐马尔可夫模型(GMM-HMM)分别应用于这两个任务,结合二者的结果实现了特定人语音识别,在孤立词、小词汇量下识别准确率较高,但需要对训练语音进行准确的音素标记;但是,随着模型库增大,计算量增加,计算更加复杂,模型的鲁棒性变差。Sak等[3]通过研究发现,在非特定人语音识别方面,使用长短时记忆(LSTM)循环神经网络可以有效地对上下文相关的时间序列信号进行建模,不仅无需音素标记,而且可以取得比传统机器学习算法更高的识别准确率。与深度学习中基于HMM的CD-DNN-HMM(context-dependent-deep neural network-hidden Markov model)和卷积神经网络(CNN)相比,LSTM循环神经网络具有更好的对长序列信号建模的能力[4-5],是近几年主流的非特定人语音识别算法之一。Dehak等[6]提出了i-vector,并用其成功实现了说话人识别。直到现在,i-vector仍被认为是最有效的说话人身份特征之一。Google公司基于深度神经网络(DNN)提出了d-vector[7],其在说话人识别效果上与i-vector相近,但只有在训练数据量充分大的情况下才能达到。
基于上述研究,本文针对孤立词、小词汇量、特定人语音指令的识别,提出了一种融合i-vector特征的LSTM循环神经网络语音识别模型。该模型使用LSTM循环神经网络作为基础模型,在参数输入上,除了将梅尔频率倒谱系数(MFCC)作为初始输入外,还在网络结构中引入了表征说话人信息的i-vector特征,并将其作为深层特征,使神经网络在对语义信息建模的同时也对相应的说话人信息建模,从而实现针对特定人语音指令的识别。主刀医生可以通过语音指令直接操控腹腔镜扶持器,从而保障了腹腔镜手术的安全性,避免了误操作。
2 基本原理
2.1 LSTM循环神经网络
LSTM循环神经网络本质上是一种特殊结构的循环神经网络(RNN)[8]。RNN由输入层、隐藏层和输出层构成,隐藏层的单元之间按照输入数据的时间序列顺次连接[9],如
在RNN的隐藏层中,每个时间节点不仅接收当前的输入层信息,还会接收前一时间节点的输出信息,从而使RNN获得对时序信号特征“记忆”的功能,具备对上下文依赖的时间序列信号建模的能力[10]。此外,RNN隐藏层中隐藏的单元数目由输入信号的时间长度决定,如此便可以动态地适应输入语音信号的随机长度;输出长度也可以根据实际应用进行调整,如序列输入—单一输出,或序列输入—序列输出。可见,RNN适用于语音识别、自然语言处理等。
RNN的反向传播(BP)不仅存在于层与层之间,还存在于隐藏层的时间序列之间,而传播误差在传递过程中会发生指数级别的衰减,过多层的反向传播会导致误差梯度消失,参数无法更新而训练失败。这意味着RNN无法对长时间序列建模。
LSTM循环神经网络采用对RNN隐藏层单元进行改造以及添加长期记忆的保存机制来解决梯度消失的问题:引入细胞状态用于存放需要长期记忆的有效特征信息,引入门结构用于控制细胞状态中信息的遗忘、输入以及输出[11]。单个隐藏层单元如
图 2. LSTM循环神经网络隐藏层单元示意图
Fig. 2. Diagram of the unit of LSTM recurrent neural network hidden layer
以时间节点隐藏层单元输出ht-1和当前输入层输入数据xt作为输入信息,通过遗忘门生成遗忘系数,与t-1节点的细胞状态Ct-1相乘进行遗忘操作;通过输入门生成当前节点需要记忆的信息并通过加法添加至Ct-1来生成更新后的细胞状态Ct;结合Ct和输入信息通过输出门生成当前节点的输出值ht,细胞状态的更新和各个门结构对信息的处理由神经网络的训练机制决定。
将
2.2 i-vector的基本原理
i-vector的基础模型是混合高斯概率密度模型-通用背景模型(GMM-UBM)[13-14]。通用背景模型(UBM)是对所有说话人的全部语音信号进行估计的混合高斯概率密度模型(GMM),与说话人的信息和信道信息不相关;然后在UBM的基础上根据各说话人的语音进行调整得到包含说话人信息和信道信息的GMM。GMM的概率密度函数为[15]
式中:ac、μc、Σc分别为GMM中混合的各个单高斯概率密度模型的权重系数、均值矢量和协方差矩阵;K为混合高斯分量的数目。
i-vector的数学模型为因子分析(FA)模型[16-19]。因子分析是一种数据降维和简化的统计方法,它使用低维抽象的变量来表示众多可观测变量中包含的目标不可观测变量[20]。其中可观测变量是由GMM中的均值矢量按照混合高斯分量的顺序连接起来的高维矢量,称为GMM均值超矢量。i-vector的核心是对GMM均值超矢量进行因子分析,用一个抽象的低维向量(即i-vector)代表说话人信息和信道信息,如(2)式所示。通过i-vector可以将一段语音信号转化为一个固定长度的低维矢量。
式中:M为包含说话人和信道信息的GMM均值超矢量,由说话人的GMM得到;m为与说话人信息和信道信息均不相关的均值超矢量,由UBM得到;T表示总体变换空间子矩阵;ω表示说话人信息和信道信息的低维矢量,即i-vector。总体变换空间子矩阵T是低秩的,通过矩阵T完成从高维到低维的映射,降维后的矢量ω有利于进一步进行分类和识别。
i-vector的提取方法是使用期望最大化(EM)算法估计矩阵T,并进一步估计ω[21-23]。EM算法是基于最大似然估计,根据已有的样本数据反推未知参数的估计方法。EM算法计算流程如下:
1)计算语音信号中每个说话人的语音在UBM下对应的Baum-Welch统计量,计算公式为
式中:Nc,s、Fc,s、Sc,s分别为说话人s在UBM中第c个高斯分量下的零阶、一阶和二阶Baum-Welch统计量;γc,s,t为说话人s的语音信号xs,t在UBM中第c个高斯分量下的后验概率。将Nc,s、Fc,s、Sc,s按照高斯分量顺序拼接起来即为UBM均值超矢量的Baum-Welch统计量Ns、Fs、Ss。
2)随机初始化矩阵T,执行EM算法中的E-Step,计算ω的均值以及方差值的期望,计算公式为
式中:Ls为构建的一个临时变量;I为单位矩阵;Σ为UBM中以Σc作为对角元按照高斯分量顺序拼接起来的高维矩阵;ωs为说话人s的目标低维矢量。
3)执行M-Step,用期望值代替真实值,对矩阵T和Σ进行重新估计,公式为
E-Step和M-Step反复迭代,直至矩阵T和Σ的值收敛为止。然后根据(7)式得到各说话人的i-vector,并作归一化处理。
3 融合i-vector特征的LSTM循环神经网络语音识别模型
3.1 语音特征参数
在语音识别中经常使用的语音特征参数主要有梅尔频率倒谱系数(MFCC)和线性预测倒谱系数(LPCC)。MFCC系数的鲁棒性较好,模拟了人耳的听觉特性,表示语音信号功率谱在梅尔频率下的分布特性,是语音识别中使用最广泛、性能最好的语音特征参数[24-26]。所以本文将MFCC作为神经网络以及提取i-vector的原始参数。先对语音信号进行预加重、分帧、加窗等预处理,再进行傅里叶变换,之后就可以通过梅尔滤波器组得到MFCC。
3.2 网络模型的构建
本文采用LSTM循环神经网络作为特定人语音识别的基础模型。LSTM循环神经网络语音识别模型从本质上讲是先对短时语音特征(即MFCC)建模,然后通过学习MFCC特征参数序列的上下文相关特性来识别语音指令内容[27]。相同的语义内容具有相似的上下文相关特性,故LSTM循环神经网络适用于对非特定人语音的识别,而无法对说话人产生很强的特异性。
说话人特征是一种长时语音特征,是对语音整体性特征的一种描述[27]。i-vector包含说话人信息和信道信息,文献[ 6]的研究表明说话人信息和信道信息不是完全分立存在,信道信息中也包含有说话人信息,故i-vector可以作为一种非常有效的说话人特征信息。另一方面,i-vector特征是在MFCC的基础上得到的,是比MFCC更为“深层”的特征。
由于腹腔镜语音指令具有小词汇量特性,所以可以对有限个语音指令采用独热码(One-hot)进行编码,将训练语音编码后的结果作为网络训练时的输出项,单个语音指令信号对应一个输出。在BiLSTM隐藏层中只取正向和反向末端的两个输出作为该层的输出项,该输出项消除了时序特性,是包含完整语义信息的长时特征。基于此,为了使LSTM循环神经网络能够进行特定人语音识别,根据i-vector的长时、“深层”特征,本文提出了一种融合i-vector特征的LSTM循环神经网络语音识别模型:将i-vector特征作为输入特征信息,并将其与通过LSTM隐藏层后消除时序特性的语义特征进行参数拼接,实现参数融合,从而使网络能够基于说话人的特异性实现对特定人语音的识别。
融合i-vector特征的LSTM循环神经网络语音识别模型的具体结构如
表 1. 融合i-vector特征的LSTM循环神经网络模型的结构
Table 1. LSTM recurrent neural network model structure with i-vector feature
|
为了有效地使用LSTM循环神经网络对上下文有效信息进行建模,确保语音信息的连续性,对每个语音帧前后5帧的MFCC参数进行拼接,并将其作为网络的输入层,其中包括5帧上文和5帧下文,不足者补0。拼接后的MFCC参数首先通过3个全连接层(FC1、FC2、FC3),然后连接至BiLSTM层,语音信号的短时特征转化为语义长时特征后被输入全接连层4(FC4)。将i-vector特征和全连接层5(FC5)的输入信息(即FC4的输出信息)进行参数拼接即可完成参数融合。模型中加入i-vector特征之后,训练输出项中除了语音指令的One-hot编码外,还会增加一个拒识别输出单元,当非目标说话人的语音输入时,该拒识别单元被激活。为防止过拟合,所有隐藏层的Dropout比率均设定为0.9。模型结构示意图如
图 4. 融合i-vector特征的LSTM循环神经网络模型示意图
Fig. 4. Diagram of LSTM recurrent neural network model with i-vector feature
参数融合和添加拒识别单元的示意图分别如
图 5. i-vector参数融合和添加拒识别单元示意图。(a) i-vector参数融合;(b)添加拒识别单元
Fig. 5. Diagrams of i-vector parameter fusion and adding rejection identification unit. (a) Parameter fusion of i-vector; (b) adding rejection identification unit
4 实验结果与讨论
4.1 实验环境与参数设置
基于Python和Google开源的第二代数字计算软件库TensorFlow搭建本文的软件环境。
采用自建语音库进行实验。语音在安静的环境下录制,语音信号的采样频率为8000 Hz,量化率为16 bit,单声道录音。根据腹腔镜的使用环境确定语音指令为“启动”“停止”“上升”“下降”“左转”“右转”“前进”“后退”,共8种指令,按顺序为其编号为1~8。其中每段语音包含单个语音指令,语音时长为2 s。选取4个成年人进行语音录制,每人每个指令录制100条,共计3200条语音。由于样本库较小,按照7∶3的比例划分训练集和测试集;然后选定其中任意2人为主刀医生,剩下的2人为助理医生;再选取另外8个成年人进行语音录制,对于每个指令每人录制10条,共计640条语音。将这640条语音作为干扰语音库。干扰语音库用于验证算法对训练库以外说话人语音的拒识别能力。
根据短时语音特性,10~30 ms内的语音具有准稳态特性,而且单帧采样点数目为2n时可以更方便地进行快速傅里叶变换(FFT),所以将单个语音帧的采样点数设定为128。MFCC特征参数的维数选取为32,UBM混合分量数为64,所以GMM均值超矢量维数为32×64。又因为因子分析中因子维度应远小于可观测变量维度,i-vector维数应远小于GMM均值超矢量维度,所以根据经验选取i-vector的维数为50。
4.2 实验设置与实验结果
为了验证本文算法是否能够针对特定人的语音实现识别,以及是否能够有效拒识别其他人的语音,基于本文的自建语音库采用文献[ 1]中的DTW模型、文献[ 2]中的GMM-HMM模型以及本文提出的模型分别进行实验,然后对实验结果进行对比。
首先验证本文算法对自建语音库中主刀医生语音的识别性能。在主刀医生和助理医生的全部训练集语音中提取MFCC,求取每个语音的i-vector并将其作为网络的输入参数。对网络进行训练时,主刀医生的语音参数对应语音指令内容编码,助理医生的语音参数对应拒识别项,采用小批量梯度下降(MBGD)进行参数更新。测试时,当神经网络输出向量中的最大值Omax≥θ,其索引为对应的输出;当神经网络输出向量中的最大值Omax<θ,或输出索引为拒识别单元,则认为结果不可信,将其拒识别。根据反复实验的结果将θ设定为0.95。拒绝识别对应的指令是错误拒绝(FR),误识别为其他内容语音的指令是错误接受(FA)。FR和FA都为识别错误。DTW和GMM-HMM模型训练时不需要助理医生语音参与,DTW可以认为是直接对说话人和语音同时建模,而GMM-HMM只需要对主刀医生语音分别进行说话人和语义建模即可,每个语音指令(说话人)都有独立完整的模型参数。这两种模型下识别错误的类型与本文模型相同。三种模型对主刀医生语音的识别结果如
表 2. 三种模型对主刀医生语音的识别结果
Table 2. Recognition results of surgeon speech by three models
|
接下来验证三种模型对助理医生语音和干扰语音的拒识别性能。分别采用助理医生语音测试集和全部的干扰语音进行测试,若将其拒识别,则认为识别正确;若未能将语音拒识别,则认为识别错误。识别结果分别如
表 3. 三种模型对助理医生语音的识别结果
Table 3. Recognition results of assistant doctors speech by three models
|
由
表 4. 三种模型对干扰语音的识别结果
Table 4. Recognition results of interference speech by three models
|
5 结论
本文提出了融合i-vector特征的LSTM循环神经网络模型。该模型将i-vector作为输入特征与神经网络较深层的特征相融合,可以在较少的训练样本量下实现针对特定人、孤立词、小词汇量语音的识别。文本所提模型在实现较高识别率的同时还保持着较低的错误接受率,可以用于腹腔镜扶持器的控制,满足腹腔镜手术中的安全性要求。但是由于语音库外的干扰语音属于未知说话人类型,存在一定的不确定性,采用神经网络这种监督学习算法对其实现拒识别存在一定困难。此外,腹腔镜手术环境虽然比较安静,但仍存在手术人员以及手术器械发出的噪声,故需要进一步提高算法的鲁棒性和抗噪能力。
[1] Abdulla WH, ChowD, SinG. Cross-words reference template for DTW-based speech recognition systems[C]∥2003 Conference on Convergent Technologies for Asia-Pacific Region. 15-17 Oct. 2003, Bangalore, India.New York: IEEE Press, 2003: 1576- 1579.
[2] 赵鑫, 陈晓冬, 常昕, 等. 基于Multi-Fisher准则的语音混合特征提取和特征增强方法[J]. 纳米技术与精密工程, 2017, 15(4): 317-322.
Zhao X, Chen X D, Chang X, et al. Parameter extraction and enhancing method for mixed phonetic features based on multi-fisher criterion[J]. Nanotechnology and Precision Engineering, 2017, 15(4): 317-322.
[3] SakH, SeniorA, BeanfaysF. Long short-term memory recurrent neural network architectures for large scale acoustic modeling[C]∥ 2014 Proceedings of Annual Conference of International Speech Communication Association. [S.l.:s.n.], 2014: 338- 342.
[4] AAbdel-Hamid O, Mohamed A R, Jiang H, et al. Convolutional neural networks for speech recognition[J]. ACM Transactions on Audio, Speech, and Language Processing, 2014, 22(10): 1533-1545.
[5] GravesA, Mohamed AR, HintonG. Speech recognition with deep recurrent neural networks[C]∥2013 IEEE International Conference on Acoustics, Speech and Signal Processing. 26-31 May 2013, Vancouver, BC, Canada.New York: IEEE Press, 2013: 6645- 6649.
[6] Dehak N, Kenny P J, Dehak R, et al. Front-end factor analysis for speaker verification[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 19(4): 788-798.
[7] VarianiE, LeiX, McDermott E, et al. Deep neural networks for small footprint text-dependent speaker verification[C]∥2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 4-9 May 2014, Florence, Italy.New York: IEEE Press, 2014: 4052- 4056.
[8] 黎亚雄, 张坚强, 潘登, 等. 基于RNN-RBM语言模型的语音识别研究[J]. 计算机研究与发展, 2014, 51(9): 1936-1944.
Li Y X, Zhang J Q, Pan D, et al. A study of speech recognition based on RNN-RBM language model[J]. Journal of Computer Research and Development, 2014, 51(9): 1936-1944.
[9] 杨恒杰, 闫铮, 邬宗玲, 等. 基于循环神经网络的图像特定文本抽取方法[J]. 激光与光电子学进展, 2019, 56(24): 241501.
[10] Li JY, YuD, Huang JT, et al.Improving wideband speech recognition using mixed-bandwidth training data in CD-DNN-HMM[C]∥2012 IEEE Spoken Language Technology Workshop (SLT). 2-5 Dec. 2012, Miami, FL, USA.New York: IEEE Press, 2012: 131- 136.
[11] 陈湟康, 陈莹. 基于具有深度门的多模态长短期记忆网络的说话人识别[J]. 激光与光电子学进展, 2019, 56(3): 031007.
[12] Yao YS, Huang Z . Bi-directional LSTM recurrent neural network for chinese word segmentation[Z/OL]. arXiv: 1602. 04874. ( 2016-02-16)[2020-03-05]. https:∥arxiv.org/abs/1602. 04874.
[13] SchefferN, Bonastre JF. UBM-GMM driven discriminative approach for speaker verification[C]∥2006 IEEE Odyssey - the Speaker and Language Recognition Workshop. 28-30 June 2006, San Juan, Puerto Rico.New York: IEEE Press, 2006: 1- 7.
[14] SnyderD, Garcia-RomeroD, PoveyD. Time delay deep neural network-based universal background models for speaker recognition[C]∥2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU). 13-17 Dec. 2015, Scottsdale, AZ, USA.New York: IEEE Press, 2015: 92- 97.
[15] 李鹏, 张炎. 基于高斯混合模型和卷积神经网络的视频烟雾检测[J]. 激光与光电子学进展, 2019, 56(21): 211502.
[16] Garcia-RomeroD, Espy-Wilson C Y. Analysis of i-vector length normalization in speaker recognition systems[C]∥ Proceedings of the Annual Conference of the International Speech Communication Association. Florence, Italy:[s.n.], 2011: 249- 252.
[17] Kenny P, Boulianne G, Ouellet P, et al. Joint factor analysis versus eigenchannels in speaker recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(4): 1435-1447.
[18] Kenny P, Boulianne G, Dumouchel P. Eigenvoice modeling with sparse training data[J]. IEEE Transactions on Speech and Audio Processing, 2005, 13(3): 345-354.
[19] Kenny P, Ouellet P, Dehak N, et al. A study of interspeaker variability in speaker verification[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2008, 16(5): 980-988.
[20] GuptaV, KennyP, OuelletP, et al.I-vector-based speaker adaptation of deep neural networks for French broadcast audio transcription[C]∥2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 4-9 May 2014, Florence, Italy.New York: IEEE Press, 2014: 6334- 6338.
[21] 栗志意, 张卫强, 何亮, 等. 基于总体变化子空间自适应的i-vector说话人识别系统研究[J]. 自动化学报, 2014, 40(8): 1836-1840.
Li Z Y, Zhang W Q, He L, et al. Total variability subspace adaptation based speaker recognition[J]. Acta Automatica Sinica, 2014, 40(8): 1836-1840.
[22] Zhang JC, InoueN, Shinoda K. I-vector transformation using conditional generative adversarial networks for short utterance speaker verification[Z/OL]. arXiv: 1804. 00290. ( 2018-04-01)[2020-03-05]. https:∥arxiv.org/abs/1804.00290v1.
[23] GlembekO, BurgetL, MatějkaP, et al.Simplification and optimization of i-vector extraction[C]∥2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).New York: IEEE Press, 2011: 12176147.
[24] Chakroborty S, Saha G. Improved text-independent speaker identification using fused MFCC & IMFCC feature sets based on Gaussian filter[J]. International Journal of Signal Processing, 2009, 5(1): 11-19.
[25] Murty K S R, Yegnanarayana B. Combining evidence from residual phase and MFCC features for speaker recognition[J]. IEEE Signal Processing Letters, 2006, 13(1): 52-55.
[27] 黄光许, 田垚, 康健, 等. 低资源条件下基于i-vector特征的LSTM递归神经网络语音识别系统[J]. 计算机应用研究, 2017, 34(2): 392-396.
Huang G X, Tian Y, Kang J, et al. Long short term memory recurrent neural network acoustic models using i-vector for low resource speech recognition[J]. Application Research of Computers, 2017, 34(2): 392-396.
Article Outline
任凯龙, 汪毅, 陈晓冬, 蔡怀宇. 用于腹腔镜扶持器控制的特定人语音识别算法[J]. 激光与光电子学进展, 2020, 57(18): 181702. Kailong Ren, Yi Wang, Xiaodong Chen, Huaiyu Cai. Speaker-Dependent Speech Recognition Algorithm for Laparoscopic Supporter Control[J]. Laser & Optoelectronics Progress, 2020, 57(18): 181702.