相同关键词【语音识别】论文列表 -- 中国光学期刊网

作者单位

摘要

西北工业大学航海学院, 陕西西安 710072

语音感知是无人系统的重要组成部分, 已有的工作大多集中于单个智能体的语音感知, 受噪声、混响等因素的影响, 性能存在上限。因此研究多智能体语音感知, 通过多智能体自组织、相互协作, 提高感知性能非常必要。假设每个智能体输出一个通道的语音流条件下, 本文提出一种多智能体自组织语音系统, 旨在综合利用所有通道提高感知性能; 并进一步以语音识别为例, 提出能处理大规模多智能体语音识别的通道选择方法。基于 Sparsemax算子的端到端语音识别流注意机制, 将带噪通道权重置零, 使流注意力具备通道选择能力, 但 Sparsemax算子会将过多通道权重置零。本文提出 Scaling Sparsemax算子, 只将带噪较强的通道权重置零; 同时提出了多层流注意力结构, 有效降低了计算复杂度。在 30个智能体的无人系统环境下, 基于 conformer架构的识别系统实验结果表明, 在通道数失配的测试环境下, 提出的 Scaling Sparsemax在仿真数据集上的文字差错率 (WER)相比 Softmax降低 30%以上, 在半真实数据集上降低 20%以上。

多智能体语音识别通道选择注意力 Scaling Sparsemax算子 multi-agent speech recognition channel selection attention Scaling Sparsemax

PDF全文 Full Text

太赫兹科学与电子信息学报

2023, 21(9): 1163

医用光学与生物技术

用于腹腔镜扶持器控制的特定人语音识别算法

下载：1048次

任凯龙汪毅 ^*陈晓冬蔡怀宇

作者单位

摘要

天津大学精密仪器与光电子工程学院, 天津 300072

提出了一种基于融合i-vector特征的长短时记忆(LSTM)循环神经网络模型,用于腹腔镜扶持器语音控制,在小训练样本下实现对特定医生语音中的短时、孤立词指令的识别。该模型以LSTM循环神经网络作为基础模型,以梅尔频率倒谱系数(MFCC)作为输入特征参数,将i-vector特征作为LSTM循环神经网络的深层输入信息,与神经网络中LSTM层后的深层特征信息进行拼接,达到参数融合的目的,实现对特定主刀医生语音指令的准确识别以及对非主刀医生语音指令的拒识别,为腹腔镜操作提供安全智能的语音识别方案。使用自建语音库进行实验,分别验证所提算法对训练库内语音的识别性能以及对训练库外语音的拒识别性能。实验结果表明:与动态时间规整算法(DTW)和混合高斯模型-隐马尔可夫模型(GMM-HMM)相比,所提模型在对训练库内特定人语音指令识别正确率高达99.6%的同时保持着错误接受率为0%,对训练库外语音的平均错误接受率为2.5%,满足腹腔镜扶持器控制的准确性和安全性要求。

医用光学腹腔镜 i-vector 长短时记忆特定人语音识别

PDF全文 Full Text

激光与光电子学进展

2020, 57(18): 181702

图像处理

基于ADSABC算法优化WNN的语音识别研究

王民许娟要趁红赵渊

作者单位

摘要

西安建筑科技大学信息与控制工程学院，陕西西安 710055

小波神经网络(WNN)具有高度的非线性映射功能及强大的自适应能力，但是WNN算法存在易陷入局部极小值，收敛速度慢。而人工蜂群算法(ABC)具有很强的全局搜索能力及较快的收敛速度。两者优势互补，已结合应用于语音识别中。本文对ABC算法做出改进，在采蜜蜂和观察蜂阶段各提出一个新的解搜索方程，采取自适应的双搜索方式(Adaptive Double Search)求解，从而提高算法的收敛速度和收敛精度。并将其和WNN算法进行结合，组成一种训练神经网络的新算法ADSABC-WNN，该算法既能克服WNN算法的缺点，又能保存双方的优点。实验结果表明，与传统ABC算法优化小波神经网络相比，识别率提高均有所提高，其中在词汇量为50时识别率提高了4.51%。将实验结果与其他方法优化的小波神经网络模型进行比较，在噪声环境下，该混合模型可以有效地减少识别时间，而且可以明显提高网络的训练速度和语音识别的识别率。

人工蜂群算法小波神经网络噪声语音识别 artificial colony algorithm wavelet neural network noise speech recognition.

PDF全文 Full Text

液晶与显示

2018, 33(7): 615

基于互补FST的语音识别发音字典扩展

舒帆屈丹 ^*范正光周利莉张文林

作者单位

摘要

信息工程大学信息系统工程学院, 河南郑州 450002

发音字典是语音识别系统的重要组成部分, 字典词汇量不足将导致高集外词率, 降低语音识别性能。提出一种自动扩展字典的新方法, 该方法不需要大量文本数据来获取新词, 而是利用单词发音恢复集外词。首先, 利用字典有限状态转换器( FST)表示的互补形式和 P2G转换获取新的词-发音对。然后采用一种两步确认策略, 即发音确认和单词确认, 滤除错误词条。最后, 采用语言模型线性内插将生成的新词添加进语言模型中。该方法在英语和捷克语的连续语音识别任务中进行了测试。实验表明, 字典扩展有效降低系统集外词 (OOV)率; 英语大词汇量连续语音识别(LVCSR)系统的连续语音识别性能相对基线系统提升约 9%, 关键词检索性能约提升 9.7%; 捷克语系统性能分别提升了 2.3%和 10.0%。

语音识别字典扩展有限状态转换器集外词关键词检索 speech recognition lexicon expansion finite state transducers Out Of Vocabulary words keyword search

PDF全文 Full Text

太赫兹科学与电子信息学报

2017, 15(3): 480

信号与信息处理、计算机与控制

改进的高效动态时间规整算法语音识别系统

王新胜 ^1,*巩捷甫 ¹喻明艳 ²

作者单位

摘要

¹ 哈尔滨工业大学信息与电气工程学院，山东威海 264209

² 浙江大学宁波理工学院，浙江宁波 315100

动态时间规整算法是结合了动态时间规整(DTW)技术和距离测度计算技术的一种非线性规整算法，在语音识别模板匹配中有重要的应用。为此提出一种改进的高效动态时间规整算法，其能有效加快搜索路径的寻找。基于Matlab 实现了隐马尔科夫算法、高效动态时间规整算法和改进的高效动态时间规整算法的语音识别系统，同时进行了算法的仿真实验。实验结果表明，基于改进高效动态时间规整算法的训练速度远大于基于隐马尔可夫算法和高效动态时间规整算法的训练速度，而识别率下降很小，对于小词汇量非连续语音识别中高效动态时间规整算法的识别率为97.56%，隐马尔可夫算法的识别率为97.14%，改进高效动态时间规整算法的识别率为96.43%。

语音识别动态时间规整隐马尔可夫 speech recognition Dynamic Time Warping hidden Markov

PDF全文 Full Text

太赫兹科学与电子信息学报

2015, 13(6): 942

工程应用

一种基于倒谱均值减的语音端点检测改进方法

王帛 ¹冯新喜 ²余侃民 ²朱必浩 ²

作者单位

摘要

¹ 中国人民解放军95971部队，湖北广水 432701

² 空军工程大学电讯工程学院，西安 710077

端点检测是语音识别理论研究中的关键技术之一，为了提高语音端点检测方法的抗噪性和准确性，引入倒谱均值减(Cepstral Mean Subtraction,CMS)设计一种新的语音端点检测方法。在传统倒谱均值减算法的基础上，采用隐马尔可夫模型(Hidden Markov Model，HMM)提取最佳特征子集，利用二次分类对传统算法加以改进。针对语音信号清音部分与白噪声频谱特征极其相似，在检测中容易发生误识的问题，提出了加权平滑修正的解决方法，从一定程度上降低了检测中的分类误识率。最后，与传统端点检测方法进行性能比较，证明了该方法的有效性。

端点检测倒谱均值减加权平滑语音识别 endpoint detection Cepstral Mean Subtraction (CMS) weighted smooth speech recongition

PDF全文 Full Text

电光与控制

2011, 18(7): 77

图像与信息处理

抗噪声的小波谱压缩特征提取算法在语音识别中的应用

付丽辉 ^*

作者单位

摘要

淮阴工学院电子信息工程系, 江苏淮安 223001

针对语音识别实际应用过程中的噪声问题，给出了一种新的抗噪声的特征提取算法，即先利用小波变换将语音信号进行小波子带分解，再根据人耳的听觉掩蔽效应，由谱压缩的技术，将小波变换后的子带语音信号进行压缩，从而提取其对应的语音特征。通过MATLAB软件建立实验平台，仿真实验结果表明该语音特征可以在噪声环境下得到较高的识别率。新的特征参数即充分利用了小波的抗噪声特性又有效地降低了语音识别中的训练环境和识别环境间的失配，具有抗噪声的特点。

信息处理语音识别人工神经网络谱压缩 information processing speech recognition artificial neural networks spectral compression

PDF全文 Full Text

量子电子学报

2009, 26(4): 398

仪器研制与开发

基于SPCE061A的智能车模语音控制系统

黄鸿吕晓华任雪梅

作者单位

摘要

北京理工大学信息科学与技术学院,北京,100081

设计了一种基于凌阳公司SPCE061A的智能车模语音控制系统.语音控制对人机交互的智能系统具有重要价值,根据语音识别的基本原理利用SPCE061A开发板设计的这套语音控制系统,经反复试验,证明识别准确率高,控制效果好.另外,只有经过训练的特定人发出语音命令,系统才响应,因而保密性较高.文中给出了系统的硬件设计以及软件结构,实验表明这种应用是成功的.

智能车模语音识别 SPCE061A

PDF全文 Full Text

现代科学仪器

2007, 17(5): 57

语音识别

一种改进的语音识别词错误率评估算法

吴边 ^*兰时勇刘重庆

作者单位

摘要

上海交通大学,图像处理与模式识别研究所,上海,200030

在建立语音识别系统的过程中错误率评估起着非常重要的作用,传统的词错误率算法仅仅是基于最小错误率,具有显著的缺陷,因而不能准确评估系统的错误率.提出一种改进的基于最小错误率和时间信息的词错误率评估算法,能够准确评估系统的错误率,为声学模型的优化提供指导,同时列举了该评估算法在建立语音识别系统过程中的应用.