研究众多说话人语音中提取目标说话人语音的问题。为提高多说话人语音分割聚类的准确性, 结合MFCC特征高准确性和GFCC特征强鲁棒性的特点, 提出一种基于MFCC与GFCC混合特征的语音分割聚类算法, 有效避免了含噪语音分割聚类鲁棒性较差等问题。针对叠加粉红噪声和工厂噪声的实验语音, 分别基于常规算法和改进的分割聚类算法进行对比分析, 结果表明, 所提出的基于混合特征的语音分割聚类算法提取目标人语音的准确性更具优势。
语音分割聚类 梅尔频率倒谱系数 伽马通滤波器倒谱系数 鲁棒性 speech segmentation and clustering Mel frequency cepstral coefficient (MFCC) Gammatone frequency cepstral coefficient (GFCC) robustness
1 复旦大学 材料科学系, 上海 200433
2 上海欧忆能源科技有限公司, 上海 200041
3 国家电网 上海市电力公司信息通信公司, 上海 200122
4 上海复旦智能监控成套设备有限公司, 上海 200433
电力通信网络线路常因沿途的工程机械施工,人为外力破坏等行为造成毫无预警的危害和损坏。为了实现对线路外破隐患高效预警,需要在现有预警定位的基础上,加上对碰撞敲击、管孔侵入、机械施工和开盖报警等行为的识别。将分布式光纤传感技术、梅尔频率倒谱系数和径向基神经网络相结合,提出一种可应用于光缆外破在线监控的模式识别方案。测试的总体识别率达97.78%,现场模拟的事件报警准确率高。该方案可广泛应用于长距离管线检测领域。
分布式光纤振动传感技术 梅尔频率倒谱系数 径向基函数 模式识别 distributed fiber-optic vibration sensing technolo Mel frequency cepstral coefficient radial basis function pattern recognition
华中科技大学 光学与电子信息学院, 武汉 430074
为了能够更好地识别入侵振动信号, 通过研究分布式光纤振动传感器及振动信号的识别技术, 根据振动信号的特点, 借鉴语音信号的处理方法, 对比原有基于快速傅里叶变换频谱分析算法, 引入了基于Mel频率倒谱系数的识别算法。新算法从频域的角度对振动信号进行分析, 提取不同环境状态下的Mel频率倒谱系数, 并将其作为新的特征参量。通过实验对比分析两种算法, 两者的误报率分别为27.5%和7.5%。结果表明, 基于Mel频率倒谱系数的算法相比基于快速傅里叶变换的频谱分析算法, 在误报率上可以降低20%甚至更多, 在不漏报的前提下, 显然误报率更低的基于Mel频率倒谱系数的算法更加适用于安防体系。
传感器技术 分布式光纤振动传感器 振动信号 快速傅里叶变换 Mel频率倒谱系数 sensor technique distributed optical fiber vibration sensor vibration signal fast Fourier transform Mel frequency cepstral coefficient
1 南京航空航天大学自动化学院, 南京 210016
2 北京市大兴区安全生产监督管理局, 北京 100875
3 中国人民解放军94916部队, 南京 210022
针对舱音信息中响度大、种类多和频率范围宽的噪声对舱音识别性能造成严重影响的问题, 利用基于最小均方差算法的自适应滤波器对舱音进行降噪。通过调整滤波器的阶数和步长使降噪效果达到最佳, 然后对降噪后的舱音进行预加重、分帧、加窗及傅里叶变换; 依次提取每个舱音信号的梅尔倒谱系数和一阶差分倒谱参数作为特征向量; 设计支持向量机, 利用舱音进行训练和识别, 解决了舱音样本在低信噪比下识别性能低的缺点。仿真结果表明, 该方法明显优于小波包降噪, 识别精确率达到96.9231%。
舱音记录器 声音识别 自适应滤波 梅尔倒谱系数 支持向量机 Cockpit Voice Recorder(CVR) voice recognition adaptive filtering MFCC SVM
1 兰州理工大学 电气工程与信息工程学院,甘肃 兰州 730050
2 兰州理工大学 计算机与通信学院,甘肃 兰州 730050
对特征参数和高斯混合模型进行改进,提出了一种特征域和模型域混合补偿的方法用于解决说话人识别特征受噪声影响较大以及高斯混合模型随训练样本长度减小而性能下降的问题。通过模拟人耳听觉,给出了基于伽马通滤波器的伽马通滤波倒谱系数;考虑其只反映了语音的静态特征,提取了能够反映语音动态特征的伽马通滑动差分倒谱系数。基于因子分析技术,利用移动因子表示高斯混合模型的自适应过程,通过训练语料较充分的说话人模型中的均值向量补偿受训练语料长度影响较大的分量的均值向量。仿真实验表明:在纯净背景下,本文方法的识别率达到了98.46%;在不同噪声环境下,本文提出的混合补偿方法能有效提高说话人识别系统的性能。
高斯混合模型 伽马通滤波器 滑动差分倒谱 因子分析 听觉特征 Gaussian mixture model Gammatone filter shifted delta cepstra factor analysis auditory feature
1 北京理工大学 光电学院, 北京 10081
2 北京理工大学 光电成像技术与系统教育部重点实验室, 北京 100081
为了实现运动成像中视频帧内复原, 研究了帧内运动模糊和离焦模糊两种常见模糊类型带来的混合模糊问题。首先, 依据模糊图像的频谱特性定性判定模糊类型, 利用倒谱分析的方法定量估计模糊模型点扩散函数, 依据工程实际选取模糊参数进行仿真实验, 实现点扩散函数估计方法的准确性验证。然后, 采用耦合梯度保真项的改进型全变分图像复原算法, 约束点扩散函数估计误差对图像复原的影响, 并采用适应L1范数的Split-Bregman算法完成复原算法的数值实现。最后, 对算法性能进行验证, 完成仿真和实拍混合模糊图像的复原。实验结果表明, 倒谱分析估计点扩散函数的准确率达到90%。 复原算法能保持图像边缘和细节, 并有效抑制振铃效应, 帧内稳像的图像峰值信噪比为28.92 dB。
运动模糊 离焦模糊 倒谱 全变分图像复原 梯度保真项 motion blur defocus blur cepstrum Total Variation (TV) image restoration gradient fidelity term
1 中国人民解放军95971部队, 湖北 广水 432701
2 空军工程大学电讯工程学院, 西安 710077
端点检测是语音识别理论研究中的关键技术之一,为了提高语音端点检测方法的抗噪性和准确性,引入倒谱均值减(Cepstral Mean Subtraction,CMS)设计一种新的语音端点检测方法。在传统倒谱均值减算法的基础上,采用隐马尔可夫模型(Hidden Markov Model,HMM)提取最佳特征子集,利用二次分类对传统算法加以改进。针对语音信号清音部分与白噪声频谱特征极其相似,在检测中容易发生误识的问题,提出了加权平滑修正的解决方法,从一定程度上降低了检测中的分类误识率。最后,与传统端点检测方法进行性能比较,证明了该方法的有效性。
端点检测 倒谱均值减 加权平滑 语音识别 endpoint detection Cepstral Mean Subtraction (CMS) weighted smooth speech recongition
浙江大学 工业控制技术国家重点实验室, 浙江 杭州 310027
根据反射型立体视觉系统的成像特点, 提出了一种基于倒谱分析的反射型立体视觉系统视差估计方法, 并利用逆滤波原理对反射型立体视觉系统的重影图像进行复原, 获得目标场景的清晰图像。反射型立体视觉系统是一种新型单目测距方式, 可以实时获取目标场景的重影图像。首先, 将图像分割为矩形观测区域小块; 然后, 对各观测区域块进行倒谱分析, 并通过检测倒谱域峰值位置估计图像的重影位移量(即视差), 计算目标点的三维空间距离; 最后, 利用估计的视差构造逆滤波器, 对重影图像进行逆滤波复原, 获取场景清晰图像。通过真实场景实验验证了本文方法的正确性和有效性, 结果表明, 本文方法的视差估计结果比自相关法提高了15%~20%, 实现了稳定视差估计, 复原了场景的清晰图像。
反射型立体视觉 视差估计 倒谱分析 图像复原 reflection stereo vision disparity estimation cepstrum analysis image restoration
上海交通大学 精密工程及智能微系统研究所,上海 200240
降晰参数识别在模糊图像恢复过程中具有很重要的作用。在各种图像捕获系统中,有两种形式的图像模糊比较常见:一种是由光学系统散焦造成的散焦模糊;另一种是物体与照相机之间的相对运动造成的运动模糊。相对单个模糊模型的参数识别来说,混合了散焦和运动模糊的图像,其模糊参数的识别要复杂得多。许多识别方法一般都是用来分析某一特定的模糊模型的,而对两种模糊混合在一起的情况来说是很难区分的。提出了一种倒谱分析方法,在倒谱域同时对这两种模型参数进行识别。在分析过程中,仍需要利用这两种模糊模型在频域的特征,首先应用一些调整性的变换,然后再转换到倒谱域,以便更准确地评估模糊参数。
点扩散函数(PSF) 散焦 运动 模糊 倒谱 point spread function (PSF) defocus motion blur cepstrum
1 清华大学,电机工程与应用电子技术系,北京,100084
2 西北核技术研究所,陕西,西安,710024
由频域幅度谱数据重建时域脉冲波形,是电磁脉冲效应及传感器标定研究中经常遇到的问题.根据最小相位原理,利用倒谱技术,编程实现了从频域幅度谱数据构造相位信息,进而反演时域脉冲响应波形.对几类函数波形和一组实测高空核爆电磁脉冲(HEMP)波形的验证结果表明,HEMP波形、余(正)弦阻尼振荡波形等信号的重建波形与原始波形符合很好.对于非最小相位信号,重建波形的前(后)沿、峰值等细节参数有一定差别,但也能给出一些波形、累积能量、幅值量级等方面的标志信息.
电磁脉冲 相位重构 最小相位 倒谱 幅度谱 Electromagnetic pulse Phase retrieval Minimum phase Cepstrum Amplitude spectrum