基于深度神经网络的维吾尔语语音识别被引量：13

Uyghur speech recognition based on deep neural network

在线阅读下载PDF

导出

摘要目前的语音识别主要采用隐马尔可夫模型去实现,考虑三音子后,模型参数巨增,在训练数据有限的状态下,模型参数得不到很好的训练,影响语音识别率。为提高语音识别率,提出基于深度神经网络的语音识别方法。以kaldi为测试平台,对一个含有4隐层的神经网络进行训练,利用该模型进行维吾尔语语音识别。实验结果表明,相比基本单音子隐马尔科夫模型和考虑三音子后的隐马尔科夫模型,深度神经网络模型使维吾尔语语音识别错误率分别降低了31.09%和8.68%,且现存一切模型优化算法在此模型中依然有效。 Currently speech recognition is mainly achieved by using hidden Markov models. However, after taking the triphone model into account, the scale of parameters greatly increases, in the circumstances of limited training data, the model parameters are not well trained, thus affecting the speech recognition rate. To improve the speech recognition rate, the method for speech recognition based on deep neural network was proposed. A neural network containing four hidden layers was trained on the kaldi platform, and the model was used to deal with the Uyghur speech recognition. Experimental results show that the error in Uy- ghur speech recognition is reduced by 31.09 % and 8.68 % respectively using the deep the neural network model compared to that using the basic tone sub-HMM and HMM triphone. And all models of existing optimization algorithm are still valid in this model.

作者其米克.巴特西黄浩王羡慧

机构地区新疆大学信息科学与工程学院

出处《计算机工程与设计》北大核心 2015年第8期2239-2244,共6页 Computer Engineering and Design

基金国家自然科学基金项目(61365005 60965002) 新疆大学博士毕业生科研启动基金项目(2014211B009) 新疆大学自治区自然科学基金项目(BS120124)

关键词语音识别模型深度神经网络三音子隐马尔可夫 speech recognition model deep neural network triphone hidden Markov model

分类号 TP391.42 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1那斯尔江·吐尔逊,吾守尔·斯拉木.基于HMM的维吾尔语连续语音识别系统[D].乌鲁木齐:新疆大学,2008:272-278.
2Andrew Ng, Jiquan Ngiam, Chuan Yu Foo, et al. Unsaper- vised feature learning and deep learning [R]. deeplearning. stanford, edu/wiki/inde php, 2013.
3YU D Deng L. Deep learning and its relevance to signal and information processing [J]. IEEE Signal Processing Magazine, 2011, 28 (1): 145 154.
4George Dahl, Yu D, Deng L, et al. Context-dependent Pre- trained deep neural networks to large vocabulary speech recogni- tion [J]. IEEE Transaction on Audio, Speech and Language Processing, 2012, 20 (1): 34-42.
5Glorot X, Bengio Y. Understanding the difficulty of training deep feed-forward neural networks [J]. JMLP WCP, 2010, 9: 249-256.
6Erhan D, Bengio Y, Courvelle A, et al. Why does unsuper vised pre-training help deep learning [J] Machine Learning Re-search, 2010, 12: 201-208.
7Hinton G. A practical guide to training restricted Boltzmann machines [G]. LNCS 7700: Neural Networks: Tricks of the Trade, 2010.
8Yu D, Deng L. Efficient and effective algorithms for training single-hidden-layer neural network [J]. Pattern Recognition Letters, 2012, 33 (5): 554-558.
9Salakhutdinov R, Hinton G. A better way to pretrain deep Boltzmann machines [ C ] //NIPS Proceedings, 2012.. 2456-2464.
10Povey D, Burget L. The subspace Gaussian mixture model-A structured model for speech recognition [ J ]. Computer Speech Languange, 2011, 25 (2): 404-439.

同被引文献82

1Li J, Yu D, Huang J T, et al. Improving Wideband Speech Recognition Using Mixed-Bandwidth Training Data in CD-DNN-HMM[J]. IEEE Workshop on Spoken Language Technology, 2012, 8537(11 ):131 - 136.
2Pan J, Liu C, Wang Z, et al. Investigation of Deep Neural Networks(DNN) for Large Vocabulary Continuous Speech Recognition: Why DNN Surpasses GMMS in Acoustic Modeling[J]. IEEE, 2012, 7196(8):501 - 305.
3Povey D, Burget L, Agarwal M, et al. The Subspace Gaussian Mixture Model-A Structured Model for Speech Recognition[J]. Computer Speech & Language, 2011, 25(2):404- 439.
4刘林泉,郑方,吴文虎.基于小数据量的方言普通话语音识别声学建模[J].清华大学学报（自然科学版）,2008,48(4):604-607. 被引量：11
5陶梅,吾守尔.斯拉木,那斯尔江.吐尔逊.基于HTK的维吾尔语连续语音声学建模[J].中文信息学报,2008,22(5):56-59. 被引量：12
6那斯尔江.吐尔逊,吾守尔.斯拉木.基于隐马尔可夫模型的维吾尔语连续语音识别系统[J].计算机应用,2009,29(7):2009-2011. 被引量：17
7杨善茜,黄汉明,蒋正锋,李锐.基于HTK的语音识别网络优化算法[J].计算机工程,2010,36(14):169-171. 被引量：3
8周湶,孙威,任海军,张昀,孙才新,谢国勇,邓景云.基于最小二乘支持向量机和负荷密度指标法的配电网空间负荷预测[J].电网技术,2011,35(1):66-71. 被引量：36
9周湶,孙威,张昀,任海军,孙才新,邓景云.基于改进型ANFIS的负荷密度指标求取新方法[J].电力系统保护与控制,2011,39(1):29-34. 被引量：18
10杨雅婷,马博,王磊,吐尔洪.吾司曼,李晓.多发音字典在维吾尔语方言语音识别中的应用[J].清华大学学报（自然科学版）,2011,51(9):1303-1306. 被引量：5

引证文献13

1黄威,石佳影.基于深度神经网络的语音识别研究[J].现代计算机,2016,22(5):20-25. 被引量：4
2梁玉龙,屈丹,李真,张文林.基于卷积神经网络的维吾尔语语音识别[J].信息工程大学学报,2017,18(1):44-50. 被引量：11
3刘学杰,赵晖.改进参数控制的可视语音合成方法[J].计算机工程与设计,2017,38(4):989-995.
4黄玉蕾,罗晓霞,刘笃仁.MFSC系数特征局部有限权重共享CNN语音识别[J].控制工程,2017,24(7):1507-1513. 被引量：9
5胡文君,傅美君,潘文林.基于Kaldi的普米语语音识别[J].计算机工程,2018,44(1):199-205. 被引量：12
6努尔麦麦提·尤鲁瓦斯,刘俊华,吾守尔·斯拉木,热依曼·吐尔逊,达吾勒·阿布都哈依尔.跨语言声学模型在维吾尔语语音识别中的应用[J].清华大学学报（自然科学版）,2018,58(4):342-346. 被引量：6
7阿依先木.卡得尔,邱自成.维吾尔语三音素决策树的欠拟合调优[J].塔里木大学学报,2018,30(2):98-108.
8梁荣,杨波,马润泽,吴健,吴奎华,林振智,文福拴.利用多源信息和深度置信神经网络的配电系统空间负荷预测[J].电力建设,2018,39(10):12-19. 被引量：13
9李云红,王成,王延年.基于混合DBNN-BLSTM模型的大词汇量连续语音识别[J].纺织高校基础科学学报,2018,31(1):103-107. 被引量：9
10刘琼.几种开源英语识别工具包的对比分析[J].计算技术与自动化,2018,37(4):123-127. 被引量：3

二级引证文献89

1陈海艳.新中国成立以来的维吾尔语研究概述[J].民族翻译,2021(1):88-96. 被引量：1
2乔丹,刘刚,杨执钧,钟韬,白雪.基于迁移学习的船舶目标识别[J].计算机应用研究,2020,37(S01):324-325. 被引量：1
3冯乐乐,王昆,郝冲,赵阳.语音识别技术在智能作业指导书系统中的应用[J].电声技术,2023,47(1):105-109.
4徐海伟,李希成,阮怀珍,黎海蒂.促肾上腺皮质激素对改进的炎性痛大鼠脑、脊髓内CGRP的影响[J].第三军医大学学报,2000,22(5):452-454.
5梁玉龙,屈丹,邱泽宇.基于改进i-vector的说话人感知训练方法研究[J].计算机工程,2018,44(5):262-267.
6蒋久松,熊富强,毛文奇,张超峰.智能语音识别方法在电力移动作业平台中的应用[J].自动化应用,2017(11):124-127. 被引量：5
7李超,周瑛,魏星.基于暗网的反恐情报分析研究[J].情报杂志,2018,37(6):10-19. 被引量：11
8阿依先木.卡得尔,邱自成.维吾尔语三音素决策树的欠拟合调优[J].塔里木大学学报,2018,30(2):98-108.
9杨胜捷,朱灏耘,冯天祥,陈宇.基于Kaldi的语音识别算法[J].电脑知识与技术,2019,15(1Z):163-166. 被引量：6
10刘方园,王水花,张煜东.卷积神经网络架构及其应用的研究[J].新型工业化,2017,7(11):40-51. 被引量：12

1杨阳蕊,李永宏,于洪志.藏语安多方言的音联结构及统计分析[J].西北民族大学学报（自然科学版）,2008,29(2):11-16. 被引量：2
2刘栋,孟祥武,陈俊亮,夏亚梅.上下文感知系统中的规则生成与匹配算法[J].软件学报,2009,20(10):2655-2666. 被引量：14
3周贤娟,赵发,冷强,杨欢.具有语音识别功能的无线传感器网络节点设计[J].单片机与嵌入式系统应用,2014,14(7):57-59.
4徐宝龙,努尔麦麦提.尤鲁瓦斯,吾守尔.斯拉木.关于维吾尔语口语语料的三音子选取方法研究[J].中文信息学报,2015,29(2):118-124. 被引量：2
5邓昌瑞,周小红,周木兰,胡莉莉,聂水晶.基于MATLAB的常用数据处理系统设计及实现[J].电子技术与软件工程,2017(2):188-190. 被引量：2
6Mellanox创新网络支撑科大讯飞走向前台[J].中国信息化,2016,0(12):94-94.
7李皓,陈艳艳,唐朝京.唇部子运动与权重函数表征的汉语动态视位[J].信号处理,2012,28(3):322-328. 被引量：12
8李冠宇,于洪志,李永宏,马宁.基于决策树的藏语拉萨话三音子模型[J].计算机工程与科学,2013,35(9):146-150. 被引量：4
9姚兵.君子动口不动手——声龙语音识别系统使用手记[J].微电脑世界,2000(29):50-50.
10陈兴东.VC++中制作带图像的半透明提示框的方法[J].微计算机应用,2005,26(3):273-273.

计算机工程与设计

2015年第8期

浏览历史

内容加载中请稍等...

基于深度神经网络的维吾尔语语音识别被引量：13

参考文献10

同被引文献82

引证文献13

二级引证文献89

相关作者

相关机构

相关主题

浏览历史

基于深度神经网络的维吾尔语语音识别 被引量：13

参考文献10

同被引文献82

引证文献13

二级引证文献89

相关作者

相关机构

相关主题

浏览历史

基于深度神经网络的维吾尔语语音识别被引量：13