作者单位
摘要
西北工业大学航海学院, 陕西西安 710072
语音感知是无人系统的重要组成部分, 已有的工作大多集中于单个智能体的语音感知, 受噪声、混响等因素的影响, 性能存在上限。因此研究多智能体语音感知, 通过多智能体自组织、相互协作, 提高感知性能非常必要。假设每个智能体输出一个通道的语音流条件下, 本文提出一种多智能体自组织语音系统, 旨在综合利用所有通道提高感知性能; 并进一步以语音识别为例, 提出能处理大规模多智能体语音识别的通道选择方法。基于 Sparsemax算子的端到端语音识别流注意机制, 将带噪通道权重置零, 使流注意力具备通道选择能力, 但 Sparsemax算子会将过多通道权重置零。本文提出 Scaling Sparsemax算子, 只将带噪较强的通道权重置零; 同时提出了多层流注意力结构, 有效降低了计算复杂度。在 30个智能体的无人系统环境下, 基于 conformer架构的识别系统实验结果表明, 在通道数失配的测试环境下, 提出的 Scaling Sparsemax在仿真数据集上的文字差错率 (WER)相比 Softmax降低 30%以上, 在半真实数据集上降低 20%以上。
多智能体语音识别 通道选择 注意力 Scaling Sparsemax算子 multi-agent speech recognition channel selection attention Scaling Sparsemax 
太赫兹科学与电子信息学报
2023, 21(9): 1163
作者单位
摘要
天津大学精密仪器与光电子工程学院, 天津 300072
提出了一种基于融合i-vector特征的长短时记忆(LSTM)循环神经网络模型,用于腹腔镜扶持器语音控制,在小训练样本下实现对特定医生语音中的短时、孤立词指令的识别。该模型以LSTM循环神经网络作为基础模型,以梅尔频率倒谱系数(MFCC)作为输入特征参数,将i-vector特征作为LSTM循环神经网络的深层输入信息,与神经网络中LSTM层后的深层特征信息进行拼接,达到参数融合的目的,实现对特定主刀医生语音指令的准确识别以及对非主刀医生语音指令的拒识别,为腹腔镜操作提供安全智能的语音识别方案。使用自建语音库进行实验,分别验证所提算法对训练库内语音的识别性能以及对训练库外语音的拒识别性能。实验结果表明:与动态时间规整算法(DTW)和混合高斯模型-隐马尔可夫模型(GMM-HMM)相比,所提模型在对训练库内特定人语音指令识别正确率高达99.6%的同时保持着错误接受率为0%,对训练库外语音的平均错误接受率为2.5%,满足腹腔镜扶持器控制的准确性和安全性要求。
医用光学 腹腔镜 i-vector 长短时记忆 特定人语音识别 
激光与光电子学进展
2020, 57(18): 181702
作者单位
摘要
西安建筑科技大学 信息与控制工程学院, 陕西 西安 710055
小波神经网络(WNN)具有高度的非线性映射功能及强大的自适应能力,但是WNN算法存在易陷入局部极小值,收敛速度慢。而人工蜂群算法(ABC)具有很强的全局搜索能力及较快的收敛速度。两者优势互补,已结合应用于语音识别中。本文对ABC算法做出改进,在采蜜蜂和观察蜂阶段各提出一个新的解搜索方程,采取自适应的双搜索方式(Adaptive Double Search)求解,从而提高算法的收敛速度和收敛精度。并将其和WNN算法进行结合,组成一种训练神经网络的新算法ADSABC-WNN,该算法既能克服WNN算法的缺点,又能保存双方的优点。实验结果表明,与传统ABC算法优化小波神经网络相比,识别率提高均有所提高,其中在词汇量为50时识别率提高了4.51%。将实验结果与其他方法优化的小波神经网络模型进行比较,在噪声环境下,该混合模型可以有效地减少识别时间,而且可以明显提高网络的训练速度和语音识别的识别率。
人工蜂群算法 小波神经网络 噪声 语音识别 artificial colony algorithm wavelet neural network noise speech recognition. 
液晶与显示
2018, 33(7): 615
作者单位
摘要
信息工程大学信息系统工程学院, 河南 郑州 450002
发音字典是语音识别系统的重要组成部分, 字典词汇量不足将导致高集外词率, 降低语音识别性能。提出一种自动扩展字典的新方法, 该方法不需要大量文本数据来获取新词, 而是利用单词发音恢复集外词。首先, 利用字典有限状态转换器( FST)表示的互补形式和 P2G转换获取新的词-发音对。然后采用一种两步确认策略, 即发音确认和单词确认, 滤除错误词条。最后, 采用语言模型线性内插将生成的新词添加进语言模型中。该方法在英语和捷克语的连续语音识别任务中进行了测试。实验表明, 字典扩展有效降低系统集外词 (OOV)率; 英语大词汇量连续语音识别(LVCSR)系统的连续语音识别性能相对基线系统提升约 9%, 关键词检索性能约提升 9.7%; 捷克语系统性能分别提升了 2.3%和 10.0%。
语音识别 字典扩展 有限状态转换器 集外词 关键词检索 speech recognition lexicon expansion finite state transducers Out Of Vocabulary words keyword search 
太赫兹科学与电子信息学报
2017, 15(3): 480
作者单位
摘要
1 哈尔滨工业大学信息与电气工程学院,山东威海 264209
2 浙江大学宁波理工学院,浙江宁波 315100
动态时间规整算法是结合了动态时间规整(DTW)技术和距离测度计算技术的一种非线性规整算法,在语音识别模板匹配中有重要的应用。为此提出一种改进的高效动态时间规整算法,其能有效加快搜索路径的寻找。基于Matlab 实现了隐马尔科夫算法、高效动态时间规整算法和改进的高效动态时间规整算法的语音识别系统,同时进行了算法的仿真实验。实验结果表明,基于改进高效动态时间规整算法的训练速度远大于基于隐马尔可夫算法和高效动态时间规整算法的训练速度,而识别率下降很小,对于小词汇量非连续语音识别中高效动态时间规整算法的识别率为97.56%,隐马尔可夫算法的识别率为97.14%,改进高效动态时间规整算法的识别率为96.43%。
语音识别 动态时间规整 隐马尔可夫 speech recognition Dynamic Time Warping hidden Markov 
太赫兹科学与电子信息学报
2015, 13(6): 942
作者单位
摘要
1 中国人民解放军95971部队, 湖北 广水 432701
2 空军工程大学电讯工程学院, 西安 710077
端点检测是语音识别理论研究中的关键技术之一,为了提高语音端点检测方法的抗噪性和准确性,引入倒谱均值减(Cepstral Mean Subtraction,CMS)设计一种新的语音端点检测方法。在传统倒谱均值减算法的基础上,采用隐马尔可夫模型(Hidden Markov Model,HMM)提取最佳特征子集,利用二次分类对传统算法加以改进。针对语音信号清音部分与白噪声频谱特征极其相似,在检测中容易发生误识的问题,提出了加权平滑修正的解决方法,从一定程度上降低了检测中的分类误识率。最后,与传统端点检测方法进行性能比较,证明了该方法的有效性。
端点检测 倒谱均值减 加权平滑 语音识别 endpoint detection Cepstral Mean Subtraction (CMS) weighted smooth speech recongition 
电光与控制
2011, 18(7): 77
作者单位
摘要
淮阴工学院电子信息工程系, 江苏 淮安 223001
针对语音识别实际应用过程中的噪声问题,给出了一种新的抗噪声的特征提取算法,即先利用小波变换将语音信号进行小波子带分解,再根据人耳的听觉掩蔽效应, 由谱压缩的技术,将小波变换后的子带语音信号进行压缩,从而提取其对应的语音特征。通过MATLAB软件建立实验平台,仿真实验结果表明该语音特征可以在噪声 环境下得到较高的识别率。新的特征参数即充分利用了小波的抗噪声特性又有效地降低了语音识别中的训练环境和识别环境间的失配,具有抗噪声的特点。
信息处理 语音识别 人工神经网络 谱压缩 information processing speech recognition artificial neural networks spectral compression 
量子电子学报
2009, 26(4): 398
作者单位
摘要
北京理工大学信息科学与技术学院,北京,100081
设计了一种基于凌阳公司SPCE061A的智能车模语音控制系统.语音控制对人机交互的智能系统具有重要价值,根据语音识别的基本原理利用SPCE061A开发板设计的这套语音控制系统,经反复试验,证明识别准确率高,控制效果好.另外,只有经过训练的特定人发出语音命令,系统才响应,因而保密性较高.文中给出了系统的硬件设计以及软件结构,实验表明这种应用是成功的.
智能车模 语音识别 SPCE061A 
现代科学仪器
2007, 17(5): 57
作者单位
摘要
上海交通大学,图像处理与模式识别研究所,上海,200030
在建立语音识别系统的过程中错误率评估起着非常重要的作用,传统的词错误率算法仅仅是基于最小错误率,具有显著的缺陷,因而不能准确评估系统的错误率.提出一种改进的基于最小错误率和时间信息的词错误率评估算法,能够准确评估系统的错误率,为声学模型的优化提供指导,同时列举了该评估算法在建立语音识别系统过程中的应用.
模式识别 词错误率 时间信息 语音识别 Pattern recognition Word Error Rate Time information Automatic speechRecognition 
红外与激光工程
2005, 34(1): 106
作者单位
摘要
1 哈尔滨工业大学机器人研究所,哈尔滨,150001
2 哈尔滨工业大学光电子技术研究所可调谐激光技术国家级重点实验室,哈尔滨,150001
介绍了数字散斑干涉技术在位移、应变、振动和医学诊断等领域中的应用和国内外发展状况.提出了一种新的应用领域--数字散斑干涉技术在语音识别中的应用,并对该方法作了介绍,讨论了它的特点.
数字散斑干涉技术(DSPI) 电子散斑干涉技术(ESPI) 语音识别 
激光技术
2002, 26(3): 237

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!