期刊文献+
共找到52篇文章
< 1 2 3 >
每页显示 20 50 100
Long Short-Term Memory Recurrent Neural Network-Based Acoustic Model Using Connectionist Temporal Classification on a Large-Scale Training Corpus 被引量:9
1
作者 Donghyun Lee Minkyu Lim +4 位作者 Hosung Park Yoseb Kang Jeong-Sik Park Gil-Jin Jang Ji-Hwan Kim 《China Communications》 SCIE CSCD 2017年第9期23-31,共9页
A Long Short-Term Memory(LSTM) Recurrent Neural Network(RNN) has driven tremendous improvements on an acoustic model based on Gaussian Mixture Model(GMM). However, these models based on a hybrid method require a force... A Long Short-Term Memory(LSTM) Recurrent Neural Network(RNN) has driven tremendous improvements on an acoustic model based on Gaussian Mixture Model(GMM). However, these models based on a hybrid method require a forced aligned Hidden Markov Model(HMM) state sequence obtained from the GMM-based acoustic model. Therefore, it requires a long computation time for training both the GMM-based acoustic model and a deep learning-based acoustic model. In order to solve this problem, an acoustic model using CTC algorithm is proposed. CTC algorithm does not require the GMM-based acoustic model because it does not use the forced aligned HMM state sequence. However, previous works on a LSTM RNN-based acoustic model using CTC used a small-scale training corpus. In this paper, the LSTM RNN-based acoustic model using CTC is trained on a large-scale training corpus and its performance is evaluated. The implemented acoustic model has a performance of 6.18% and 15.01% in terms of Word Error Rate(WER) for clean speech and noisy speech, respectively. This is similar to a performance of the acoustic model based on the hybrid method. 展开更多
关键词 acoustic model connectionisttemporal classification LARGE-SCALE trainingcorpus LONG SHORT-TERM memory recurrentneural network
在线阅读 下载PDF
引入预训练表示混合矢量量化和CTC的语音转换
2
作者 王琳 黄浩 《计算机工程》 CAS CSCD 北大核心 2024年第4期313-320,共8页
预训练模型通过自监督学习表示在非平行语料语音转换(VC)取得了重大突破。随着自监督预训练表示(SSPR)的广泛使用,预训练模型提取的特征中被证实包含更多的内容信息。提出一种基于SSPR同时结合矢量量化(VQ)和联结时序分类(CTC)的VC模型... 预训练模型通过自监督学习表示在非平行语料语音转换(VC)取得了重大突破。随着自监督预训练表示(SSPR)的广泛使用,预训练模型提取的特征中被证实包含更多的内容信息。提出一种基于SSPR同时结合矢量量化(VQ)和联结时序分类(CTC)的VC模型。将预训练模型提取的SSPR作为端到端模型的输入,用于提高单次语音转换质量。如何有效地解耦内容表示和说话人表示成为语音转换中的关键问题。使用SSPR作为初步的内容信息,采用VQ从语音中解耦内容和说话人表示。然而,仅使用VQ只能将内容信息离散化,很难将纯粹的内容表示从语音中分离出来,为了进一步消除内容信息中说话人的不变信息,提出CTC损失指导内容编码器。CTC不仅作为辅助网络加快模型收敛,同时其额外的文本监督可以与VQ联合优化,实现性能互补,学习纯内容表示。说话人表示采用风格嵌入学习,2种表示作为系统的输入进行语音转换。在开源的CMU数据集和VCTK语料库对所提的方法进行评估,实验结果表明,该方法在客观上的梅尔倒谱失真(MCD)达到8.896 d B,在主观上的语音自然度平均意见分数(MOS)和说话人相似度MOS分别为3.29和3.22,均优于基线模型,此方法在语音转换的质量和说话人相似度上能够获得最佳性能。 展开更多
关键词 预训练表示 自监督学习 矢量量化 解耦 联结时序分类
在线阅读 下载PDF
联合CTC和Transformer的轮式移动机器人语音控制研究
3
作者 唐咸荣 高瑞贞 《中国测试》 CAS 北大核心 2024年第6期117-123,共7页
针对人机交互过程中手动控制轮式移动机器人步骤繁琐且双手受到限制的问题,提出并实现基于深度学习算法的轮式移动机器人语音控制系统。系统选取树莓派4B开发板作为主控制器,科大讯飞6阵列语音模块作为语音采集器,STM32单片机作为底层... 针对人机交互过程中手动控制轮式移动机器人步骤繁琐且双手受到限制的问题,提出并实现基于深度学习算法的轮式移动机器人语音控制系统。系统选取树莓派4B开发板作为主控制器,科大讯飞6阵列语音模块作为语音采集器,STM32单片机作为底层轮式移动机器人的控制器。语音识别算法部分设计基于Transformer的端到端语音识别模型,并加入连续时序分类算法来辅助模型的训练,模型的收敛速度和鲁棒性都得到相应的提升。模型在AISHELL-1语音数据集上测试的字错率为5.57%,相对于Transformer单独训练,字错率相对下降5.1%。经过平台搭建和实验,实现轮式移动机器人根据用户语音指令完成相对应动作的目的,有利于提高工作效率和解放用户的双手。 展开更多
关键词 轮式移动机器人 语音控制 TRANSFORMER 连接时序分类
在线阅读 下载PDF
基于动态BLSTM和CTC的濒危语言语音识别研究 被引量:9
4
作者 于重重 陈运兵 +3 位作者 孙沁瑶 刘畅 徐世璇 尹蔚彬 《计算机应用研究》 CSCD 北大核心 2019年第11期3334-3337,共4页
针对低资源的濒危语言进行了端到端语音识别模型的建立与研究,能够为濒危语言的保护和传承探索出新的途径。采用动态双向长短时记忆网络与连接时序分类模型构造端到端的语音识别系统,在进行音素级别的识别训练时,传入模型的数据批量大... 针对低资源的濒危语言进行了端到端语音识别模型的建立与研究,能够为濒危语言的保护和传承探索出新的途径。采用动态双向长短时记忆网络与连接时序分类模型构造端到端的语音识别系统,在进行音素级别的识别训练时,传入模型的数据批量大小根据训练模型作自适应调整,不仅能够加快收敛速度,而且能够提高模型的泛化性。通过修改网络层次与结构参数,并提取不同的语音特征进行模型对比,实验结果表明在两种濒危语言——吕苏语和土家语的数据集上均取得了较好的识别效果。 展开更多
关键词 濒危语言语音识别 端到端 动态双向长短时记忆网络 连接时序分类模型
在线阅读 下载PDF
基于DFCNN-CTC端到端的藏族学生普通话发音偏误检测 被引量:9
5
作者 甘振业 周世华 +1 位作者 曾浩 杨鸿武 《西北师范大学学报(自然科学版)》 CAS 北大核心 2020年第5期49-53,108,共6页
计算机辅助语音训练系统需要检测非母语者的错误发音,并提供详细的指导性反馈,有助于第二语言学习者更有效地提高发音水平.利用深度全序列卷积神经网络(Deep full convolutional neural network,DFCNN)和链接时序分类(Connectionist tem... 计算机辅助语音训练系统需要检测非母语者的错误发音,并提供详细的指导性反馈,有助于第二语言学习者更有效地提高发音水平.利用深度全序列卷积神经网络(Deep full convolutional neural network,DFCNN)和链接时序分类(Connectionist temporal classification,CTC)技术,建立了一种用于发音偏误检测和诊断任务的端到端语音识别方法.该方法不需要音位信息,也不需要强制对齐,以扩展声韵母为偏误基元,设计了64种偏误类型.实验结果表明,该方法能够有效地检测出错误发音,检测正确率为87.07%,错误拒绝率为7.83%,错误接收率为25.97%. 展开更多
关键词 发音偏误检测 卷积神经网络 链接时序分类 端到端
在线阅读 下载PDF
基于改进混合CTC/attention架构的端到端普通话语音识别 被引量:6
6
作者 杨鸿武 周刚 《西北师范大学学报(自然科学版)》 CAS 北大核心 2019年第3期48-53,共6页
端到端的语音识别通过用单个深度网络架构表示复杂模块,减少了构建语音识别系统的难度.文中对传统的混合链接时序分类(Connectionist temporal classification, CTC)模型和基于注意力机制(Attention-based)模型的端到端语音识别架构进... 端到端的语音识别通过用单个深度网络架构表示复杂模块,减少了构建语音识别系统的难度.文中对传统的混合链接时序分类(Connectionist temporal classification, CTC)模型和基于注意力机制(Attention-based)模型的端到端语音识别架构进行了改进,通过引入动态调整参数对CTC模型和基于注意力机制模型进行线性插值,从而实现混合架构的端到端语音识别.将改进后的方法应用在中文普通话语音识别中,选择带投影层的双向长短时记忆网络(Bidirectional long short-term memory projection, BLSTMP)作为编码器网络模型,声学特征选取80维的梅尔尺度滤波器组系数和基频共83维特征.实验结果表明,与传统的端到端语音识别方法比较,文中方法在普通话语音识别上能够降低3.8%的词错误率. 展开更多
关键词 语音识别 链接时序分类 注意力机制 混合ctc/attention 端到端系统
在线阅读 下载PDF
混合CTC/Attention模型在普通话识别中的应用 被引量:1
7
作者 许鸿奎 张子枫 +3 位作者 卢江坤 周俊杰 胡文烨 姜彤彤 《计算机与现代化》 2022年第8期1-6,共6页
基于链接时序分类(Connectionist Temporal Classification,CTC)的端到端语音识别模型具有结构简单且能自动对齐的优点,但识别准确率有待进一步提高。本文引入注意力机制(Attention)构成混合CTC/Attention端到端模型,采用多任务学习方式... 基于链接时序分类(Connectionist Temporal Classification,CTC)的端到端语音识别模型具有结构简单且能自动对齐的优点,但识别准确率有待进一步提高。本文引入注意力机制(Attention)构成混合CTC/Attention端到端模型,采用多任务学习方式,充分发挥CTC的对齐优势和Attention机制的上下文建模优势。实验结果表明,当选取80维FBank特征和3维pitch特征作为声学特征,选择VGG-双向长短时记忆网络(VGG-Bidirectional long short-time memory,VGG-BiLSTM)作为编码器应用于中文普通话识别时,该模型与基于CTC的端到端模型相比,字错误率下降约6.1%,外接语言模型后,字错误率进一步下降0.3%;与传统基线模型相比,字错误率也有大幅度下降。 展开更多
关键词 语音识别 链接时序分类 注意力机制 端到端
在线阅读 下载PDF
混合CTC/attention架构端到端带口音普通话识别 被引量:11
8
作者 杨威 胡燕 《计算机应用研究》 CSCD 北大核心 2021年第3期755-759,共5页
针对普通话语音识别任务中的多口音识别问题,提出了链接时序主义(connectionist temporal classification,CTC)和多头注意力(multi-head attention)的混合端到端模型,同时采用多目标训练和联合解码的方法。实验分析发现随着混合架构中... 针对普通话语音识别任务中的多口音识别问题,提出了链接时序主义(connectionist temporal classification,CTC)和多头注意力(multi-head attention)的混合端到端模型,同时采用多目标训练和联合解码的方法。实验分析发现随着混合架构中链接时序主义权重的降低和编码器层数的加深,混合模型在带口音的数据集上表现出了更好的学习能力,同时训练一个深度达到48层的编码器—解码器架构的网络,生成模型的表现超过之前所有端到端模型,在数据堂开源的200 h带口音数据集上达到了5.6%字错率和26.2%句错率。实验证明了提出的端到端模型超过一般端到端模型的识别率,在解决带口音的普通话识别上有一定的先进性。 展开更多
关键词 口音 混合ctc/attention的端到端模型 多头注意力 链接时序主义 语音识别
在线阅读 下载PDF
基于门控卷积网络与CTC的端到端语音识别 被引量:15
9
作者 杨德举 马良荔 +1 位作者 谭琳珊 裴晶晶 《计算机工程与设计》 北大核心 2020年第9期2650-2654,共5页
针对传统声学模型存在模型组件复杂且不能统一进行训练,数据必须进行预对齐的问题,提出基于一维门控卷积神经网络与CTC的中文端到端语音识别模型。通过堆叠多层一维卷积神经网络进行声学建模,提取包含上下文信息的高层抽象特征,融合门... 针对传统声学模型存在模型组件复杂且不能统一进行训练,数据必须进行预对齐的问题,提出基于一维门控卷积神经网络与CTC的中文端到端语音识别模型。通过堆叠多层一维卷积神经网络进行声学建模,提取包含上下文信息的高层抽象特征,融合门控线性单元减少梯度弥散,利用CTC算法实现以汉字字符作为建模基元的端到端训练和解码。在公开数据集上的实验结果表明,与基线模型相比,该模型语音识别性能有明显提升,字错误率降低了3.3%以上。 展开更多
关键词 语音识别 端到端 卷积神经网络 门控线性单元 链接时序分类
在线阅读 下载PDF
基于HOPE-CTC的端到端语音识别 被引量:3
10
作者 徐冬冬 蒋志翔 《计算机工程与设计》 北大核心 2021年第2期462-467,共6页
为增强端到端语音识别模型的鲁棒性和特征提取的有效性,对瓶颈特征提取网络进行研究,提出采用基于联合优化正交投影和估计的端到端语音识别模型。通过连接时序分类损失函数训练瓶颈特征提取网络,摆脱对语言学和对齐信息的先验知识的依赖... 为增强端到端语音识别模型的鲁棒性和特征提取的有效性,对瓶颈特征提取网络进行研究,提出采用基于联合优化正交投影和估计的端到端语音识别模型。通过连接时序分类损失函数训练瓶颈特征提取网络,摆脱对语言学和对齐信息的先验知识的依赖,在解码输出部分添加注意力机制,实现两种不同的端到端模型的融合。在中文数据集AISHELL-1上的实验结果表明,与传统识别模型相比,该改进端到端模型更适用于带噪语音的识别任务。 展开更多
关键词 联合优化正交投影和估计 连接时序分类 注意力机制 端到端模型 瓶颈特征
在线阅读 下载PDF
基于CTC模型的无分割文本验证码识别 被引量:8
11
作者 杜薇 周武能 《计算机与现代化》 2018年第9期48-51,共4页
验证码安全性是保障网络安全的重要一环,本文利用深度学习,提出长短期记忆(Long Short-Term Memory,LSTM)网络和连接时序分类(Connectionist Temporal Classification,CTC)模型对主流的验证码图片进行智能识别,利用开源CAPTCHA验证码库... 验证码安全性是保障网络安全的重要一环,本文利用深度学习,提出长短期记忆(Long Short-Term Memory,LSTM)网络和连接时序分类(Connectionist Temporal Classification,CTC)模型对主流的验证码图片进行智能识别,利用开源CAPTCHA验证码库生成数据集,简化验证码识别模型,统一语音识别和文本识别方法,实现端到端模型识别。本文提出的方法在较小训练集情况下有更优秀的性能。 展开更多
关键词 验证码识别 深度学习 长短期记忆网络 连接时序分类模型
在线阅读 下载PDF
TCN-Transformer-CTC的端到端语音识别 被引量:18
12
作者 谢旭康 陈戈 +1 位作者 孙俊 陈祺东 《计算机应用研究》 CSCD 北大核心 2022年第3期699-703,共5页
基于Transformer的端到端语音识别系统获得广泛的普及,但Transformer中的多头自注意力机制对输入序列的位置信息不敏感,同时它灵活的对齐方式在面对带噪语音时泛化性能较差。针对以上问题,首先提出使用时序卷积神经网络(TCN)来加强神经... 基于Transformer的端到端语音识别系统获得广泛的普及,但Transformer中的多头自注意力机制对输入序列的位置信息不敏感,同时它灵活的对齐方式在面对带噪语音时泛化性能较差。针对以上问题,首先提出使用时序卷积神经网络(TCN)来加强神经网络模型对位置信息的捕捉,其次在上述基础上融合连接时序分类(CTC),提出TCN-Transformer-CTC模型。在不使用任何语言模型的情况下,在中文普通话开源语音数据库AISHELL-1上的实验结果表明,TCN-Transformer-CTC相较于Transformer字错误率相对降低了10.91%,模型最终字错误率降低至5.31%,验证了提出的模型具有一定的先进性。 展开更多
关键词 端到端语音识别 TRANSFORMER 时序卷积神经网络 连接时序分类
在线阅读 下载PDF
使用Conformer增强的混合CTC/Attention端到端中文语音识别 被引量:9
13
作者 陈戈 谢旭康 +1 位作者 孙俊 陈祺东 《计算机工程与应用》 CSCD 北大核心 2023年第4期97-103,共7页
最近,基于自注意力的Transformer结构在不同领域的一系列任务上表现出非常好的性能。探索了基于Transformer编码器和LAS(listen,attend and spell)解码器的Transformer-LAS语音识别模型的效果,并针对Transformer不善于捕捉局部信息的问... 最近,基于自注意力的Transformer结构在不同领域的一系列任务上表现出非常好的性能。探索了基于Transformer编码器和LAS(listen,attend and spell)解码器的Transformer-LAS语音识别模型的效果,并针对Transformer不善于捕捉局部信息的问题,使用Conformer代替Transformer,提出Conformer-LAS模型。由于Attention过于灵活的对齐方式,使得在嘈杂环境中的效果急剧下降,采用连接时序分类(connectionist temporal classification,CTC)辅助训练以加快收敛,并加入音素级别的中间CTC损失联合优化,提出了效果更好的Conformer-LAS-CTC语音识别模型。在开源中文普通话Aishell-1数据集上对提出来的模型进行验证,实验结果表明,Conformer-LAS-CTC相对于采用的基线BLSTM-LAS和Transformer-LAS模型在测试集上的字错率分别相对降低了22.58%和48.76%,模型最终字错误率为4.54%。 展开更多
关键词 端到端 语音识别 CONFORMER LAS 连接时序分类
在线阅读 下载PDF
Continuous Sign Language Recognition Based on Spatial-Temporal Graph Attention Network 被引量:2
14
作者 Qi Guo Shujun Zhang Hui Li 《Computer Modeling in Engineering & Sciences》 SCIE EI 2023年第3期1653-1670,共18页
Continuous sign language recognition(CSLR)is challenging due to the complexity of video background,hand gesture variability,and temporal modeling difficulties.This work proposes a CSLR method based on a spatialtempora... Continuous sign language recognition(CSLR)is challenging due to the complexity of video background,hand gesture variability,and temporal modeling difficulties.This work proposes a CSLR method based on a spatialtemporal graph attention network to focus on essential features of video series.The method considers local details of sign language movements by taking the information on joints and bones as inputs and constructing a spatialtemporal graph to reflect inter-frame relevance and physical connections between nodes.The graph-based multihead attention mechanism is utilized with adjacent matrix calculation for better local-feature exploration,and short-term motion correlation modeling is completed via a temporal convolutional network.We adopted BLSTM to learn the long-termdependence and connectionist temporal classification to align the word-level sequences.The proposed method achieves competitive results regarding word error rates(1.59%)on the Chinese Sign Language dataset and the mean Jaccard Index(65.78%)on the ChaLearn LAP Continuous Gesture Dataset. 展开更多
关键词 Continuous sign language recognition graph attention network bidirectional long short-term memory connectionist temporal classification
在线阅读 下载PDF
基于GRU-CTC混合模型的语音识别方法研究 被引量:2
15
作者 董家仁 刘广聪 《现代计算机》 2019年第26期13-16,共4页
传统的隐马尔科夫模型和循环神经网络在语音识别领域都获得很广泛的应用,但是随着数据量的剧增,其处理效率越来越无法满足人们需求,针对以上问题,通过对比应用于语音识别的三种模型,介绍一种基于门控循环单元GRU和连接时序分类CTC混合... 传统的隐马尔科夫模型和循环神经网络在语音识别领域都获得很广泛的应用,但是随着数据量的剧增,其处理效率越来越无法满足人们需求,针对以上问题,通过对比应用于语音识别的三种模型,介绍一种基于门控循环单元GRU和连接时序分类CTC混合模型的语音识别方法。GRU作为一种LSTM网络的变形,在结构上比LSTM要简单,效率也更高,而CTC在帧预测上的方便与高效也让识别效果有不小的提升,从实验对比结果来看,结合CTC的GRU模型不仅比传统的GMM-HMM模型正确率要高,与结合CTC的LSTM模型相比正确率和效率也有不小的提高。 展开更多
关键词 门控循环单元 连接时序分类 长短期记忆网络 语音识别
在线阅读 下载PDF
基于CNN-GRU-CTC的藏族学生普通话发音偏误检测 被引量:1
16
作者 梁青青 周小燕 赵春艳 《兰州文理学院学报(自然科学版)》 2023年第5期47-51,共5页
为了提高藏族学生学习普通话的发音水平,根据普通话和藏语发音特点设计并录制了一个偏误语音语料库,并结合卷积神经网络(Convolutional Neural Network,CNN)、门控循环单元(Gated Recurrent Unit,GRU)技术和连接时序分类技术(Connection... 为了提高藏族学生学习普通话的发音水平,根据普通话和藏语发音特点设计并录制了一个偏误语音语料库,并结合卷积神经网络(Convolutional Neural Network,CNN)、门控循环单元(Gated Recurrent Unit,GRU)技术和连接时序分类技术(Connectionist Temporal Classification,CTC)搭建CNN-GRU-CTC声学模型,提出了一种发音偏误检测的方法.该方法将语音转换为一张图像作为输入,对完整的语谱图进行数据提取,利用深度全序列卷积神经网络进行建模,使用自动语音识别框架来进行发音偏误检测.实验结果表明:在该模型下,系统检测准确率为88.55%,错误拒绝率为7.16%,联合错误率为14.94%.该方法可以有效检测出错误发音,性能优于其他模型,可以用于检测和纠正藏族学生学习普通话时的错误发音,提高藏族学生的普通话发音水平. 展开更多
关键词 发音偏误检测 卷积神经网络 门控循环单元 连接时序分类
在线阅读 下载PDF
一种基于CNN/CTC的端到端普通话语音识别方法 被引量:3
17
作者 潘粤成 刘卓 +2 位作者 潘文豪 蔡典仑 韦政松 《现代信息科技》 2020年第5期65-68,共4页
为了实现离线状态较高正确率的中文普通话语音识别,提出一种基于深度全卷积神经网络CNN表征的语音识别系统的声学模型,将频谱图作为输入,在模型结构上参考了VGG模型。在输出端,该模型可以与连接时序分类完美结合,从而实现整个模型的端... 为了实现离线状态较高正确率的中文普通话语音识别,提出一种基于深度全卷积神经网络CNN表征的语音识别系统的声学模型,将频谱图作为输入,在模型结构上参考了VGG模型。在输出端,该模型可以与连接时序分类完美结合,从而实现整个模型的端到端训练,将声波信号转换成普通话拼音序列。语言模型则采用最大熵马尔可夫模型,将拼音序列转换为中文文本。实验表明,此算法在测试集上已经获得了80.82%的正确率。 展开更多
关键词 卷积神经网络 中文语音识别 连接时序分类 端到端系统
在线阅读 下载PDF
基于印刷体监督的手写维文识别方法
18
作者 闫林 王磊 +1 位作者 艾孜麦提·艾尼瓦尔 杨雅婷 《计算机仿真》 2024年第11期262-268,共7页
手写维吾尔文字图像数据集匮乏及手写文本难于分割识别问题,提出了一种基于印刷体监督的手写维文识别模型模型将文字和印刷体文字图片同时作为标签,在训练时将两种文字图像并行输入到CNN中提取特征,而后将特征分别输入至识别分支进行识... 手写维吾尔文字图像数据集匮乏及手写文本难于分割识别问题,提出了一种基于印刷体监督的手写维文识别模型模型将文字和印刷体文字图片同时作为标签,在训练时将两种文字图像并行输入到CNN中提取特征,而后将特征分别输入至识别分支进行识别任务、输入至匹配分支进行图片匹配任务,预测时将特征输入到BiLSTM编码器中得到序列特征,最后通过CTC得到识别结果。所提方法可生成充裕有效的手写文字图像,且在真实手写维文测试集上相较于基准模型CER降低5.03%,在IAM上也证明了模型迁移性。实验结果表明,提出的方法能够有效缓解手写维文文字图像数据集匮乏问题,模型能充分挖掘印刷体文字图像的特征作为手写体文字识别的监督信息来提高识别效果。 展开更多
关键词 手写维文识别 图片匹配 卷积神经网络 长短期记忆网络 连接时序分类 免分割
在线阅读 下载PDF
协调语音能量区域的正则化优化算法
19
作者 师晨康 薛珮芸 +1 位作者 白静 赵建星 《计算机工程与设计》 北大核心 2024年第7期2173-2179,共7页
为有效解决语音识别模型过拟合问题,提出一种协调语音能量区域的正则化优化算法。根据语音的共振峰特性,对语音信号高能量区域进行集体失活处理,增加模型对语音信号低能量区域的关注度;为进一步提升声学模型性能,采用堆叠8层的门控卷积... 为有效解决语音识别模型过拟合问题,提出一种协调语音能量区域的正则化优化算法。根据语音的共振峰特性,对语音信号高能量区域进行集体失活处理,增加模型对语音信号低能量区域的关注度;为进一步提升声学模型性能,采用堆叠8层的门控卷积神经网络提取语音时序特征,并对其中的门控机制进行优化,缓解梯度衰减现象;采用联结时序分类算法以汉字为建模单元对语音识别模型进行训练和解码。在公开中文语音数据集Aishell-1上的实验结果表明,该语音识别模型字错率降低至11.27%,与基线模型相比,字错率下降了7.93%,验证了该方法的有效性。 展开更多
关键词 语音识别 声学模型 语音能量区域 正则化 卷积神经网络 联结时序分类 深度学习
在线阅读 下载PDF
基于连续语音识别技术的猪连续咳嗽声识别 被引量:22
20
作者 黎煊 赵建 +3 位作者 高云 刘望宏 雷明刚 谭鹤群 《农业工程学报》 EI CAS CSCD 北大核心 2019年第6期174-180,共7页
针对现有基于孤立词识别技术的猪咳嗽声识别存在识别声音种类有限,无法反映实际患病猪连续咳嗽的问题,该文提出了基于双向长短时记忆网络-连接时序分类模型(birectional long short-termmemory-connectionist temporal classification,B... 针对现有基于孤立词识别技术的猪咳嗽声识别存在识别声音种类有限,无法反映实际患病猪连续咳嗽的问题,该文提出了基于双向长短时记忆网络-连接时序分类模型(birectional long short-termmemory-connectionist temporal classification,BLSTM-CTC)构建猪声音声学模型,进行猪场环境猪连续咳嗽声识别的方法,以此进行猪早期呼吸道疾病的预警和判断。研究了体质量为75 kg左右长白猪单个咳嗽声样本的持续时间长度和能量大小的时域特征,构建了声音样本持续时间在0.24~0.74 s和能量大于40.15 V^2·s的阈值范围。在此阈值范围内,利用单参数双门限端点检测算法对基于多窗谱的心理声学语音增强算法处理后的30 h猪场声音进行检测,得到222段试验语料。将猪场环境下的声音分为猪咳嗽声和非猪咳嗽声,并以此作为声学模型建模单元,进行语料的标注。提取26维梅尔频率倒谱系数(Mel frequency cepstral coefficients,MFCC)作为试验语段特征参数。通过BLSTM网络学习猪连续声音的变化规律,并利用CTC实现了端到端的猪连续声音识别系统。5折交叉验证试验平均猪咳嗽声识别率达到92.40%,误识别率为3.55%,总识别率达到93.77%。同时,以数据集外1 h语料进行了算法应用测试,得到猪咳嗽声识别率为94.23%,误识别率为9.09%,总识别率为93.24%。表明基于连续语音识别技术的BLSTM-CTC猪咳嗽声识别模型是稳定可靠的。该研究可为生猪健康养殖过程中猪连续咳嗽声的识别和疾病判断提参考。 展开更多
关键词 信号处理 声音信号 识别 生猪产业 连续咳嗽声 双向长短时记忆网络-连接时序分类模型 声学模型
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部