期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
一种基于数据筛的音频视频连续语音识别系统 被引量:1
1
作者 谢磊 I Ravyse +4 位作者 蒋冬梅 赵荣椿 H Sahli W Verhelst J Cornelis 《计算机应用》 CSCD 北大核心 2003年第7期1-3,共3页
文中考虑语音的音频和视频双模型特性,建立了一个在噪音环境下的基于音频和视频复合特征的连续语音识别系统。在视频特征提取方面,引入了一种鲁棒性较好的数据筛特征提取方法;在音频和视频集成建模方面,使用多数据流HMM来反映语音的双... 文中考虑语音的音频和视频双模型特性,建立了一个在噪音环境下的基于音频和视频复合特征的连续语音识别系统。在视频特征提取方面,引入了一种鲁棒性较好的数据筛特征提取方法;在音频和视频集成建模方面,使用多数据流HMM来反映语音的双模型特性。识别实验表明,文中建立的音频视频连续语音识别系统具有很好的抗噪性。 展开更多
关键词 语音识别 音频视频 连续语音识别 数据筛 多数据流HMM
在线阅读 下载PDF
基于三音素动态贝叶斯网络模型的大词汇量连续语音识别 被引量:3
2
作者 吕国云 赵荣椿 +2 位作者 张艳宁 樊养余 Sahli Hichem 《数据采集与处理》 CSCD 北大核心 2009年第1期1-6,共6页
考虑连续语音中的协同发音现象,基于词-音素结构的DBN(WP-DBN)模型和词-音素-状态结构的DBN(WPS-DBN)模型,引入上下文相关的三音素单元,提出两个新颖的单流DBN模型:基于词-三音素结构的DBN(WT-DBN)模型和基于词-三音素-状态的DBN(WTS-D... 考虑连续语音中的协同发音现象,基于词-音素结构的DBN(WP-DBN)模型和词-音素-状态结构的DBN(WPS-DBN)模型,引入上下文相关的三音素单元,提出两个新颖的单流DBN模型:基于词-三音素结构的DBN(WT-DBN)模型和基于词-三音素-状态的DBN(WTS-DBN)模型。WTS-DBN模型是三音素模型,识别基元为三音素,以显式的方式模拟了基于三音素状态捆绑的隐马尔可夫模型(HMM)。大词汇量语音识别实验结果表明:在纯净语音环境下,WTS-DBN模型的识别率比HMM,WT-DBN,WP-DBN和WPS-DBN模型的识别率分别提高了20.53%,40.77%,42.72%和7.52%。 展开更多
关键词 语音识别 动态贝叶斯网络 三音素 音素
在线阅读 下载PDF
基于动态贝叶斯网络的音视频连续语音识别和音素切分 被引量:2
3
作者 吕国云 蒋冬梅 +5 位作者 蒋晓悦 赵荣椿 侯云舒 孙阿利 H.Sahli W.Verhelst 《计算机应用》 CSCD 北大核心 2007年第7期1670-1673,共4页
构造了两个单流单音素的动态贝叶斯网络(DBN)模型,以实现基于音频和视频特征的连续语音识别,并在描述词和对应音素具体关系的基础上,实现对音素的时间切分。实验结果表明,在基于音频特征的识别率方面:在低信噪比(0~15dB)时,DBN模型的... 构造了两个单流单音素的动态贝叶斯网络(DBN)模型,以实现基于音频和视频特征的连续语音识别,并在描述词和对应音素具体关系的基础上,实现对音素的时间切分。实验结果表明,在基于音频特征的识别率方面:在低信噪比(0~15dB)时,DBN模型的识别率比HMM模型平均高12.79%;而纯净语音下,基于DBN模型的音素时间切分结果和三音素HMM模型的切分结果很接近。对基于视频特征的语音识别,DBN模型的识别率比HMM识别率高2.47%。实验最后还分析了音视频数据音素时间切分的异步关系,为基于多流DBN模型的音视频连续语音识别和确定音频和视频的异步关系奠定了基础。 展开更多
关键词 动态贝叶斯网络 音视频 语音识别 音素切分
在线阅读 下载PDF
基于多流三音素DBN模型的音视频语音识别和音素切分 被引量:1
4
作者 吕国云 蒋冬梅 +3 位作者 樊养余 赵荣椿 H.Sahli W.Vlerhelst 《电子与信息学报》 EI CSCD 北大核心 2009年第2期297-301,共5页
为实现音视频语音识别和同时对音频视频流进行准确的音素切分,该文提出一个新的多流异步三音素动态贝叶斯网络(MM-ADBN-TRI)模型,在词级别上描述了音频视频流的异步性,音频流和视频流都采用了词-三音素-状态-观测向量的层次结构,识别基... 为实现音视频语音识别和同时对音频视频流进行准确的音素切分,该文提出一个新的多流异步三音素动态贝叶斯网络(MM-ADBN-TRI)模型,在词级别上描述了音频视频流的异步性,音频流和视频流都采用了词-三音素-状态-观测向量的层次结构,识别基元是三音素,描述了连续语音中的协同发音现象。实验结果表明:该模型在音视频语音识别和对音频视频流的音素切分方面,以及在确定音视频流的异步关系上,都具备较好的性能。 展开更多
关键词 语音识别 动态贝叶斯网络 音素切分 音视频
在线阅读 下载PDF
基于多流多状态动态贝叶斯网络的音视频连续语音识别 被引量:1
5
作者 吕国云 蒋冬梅 +4 位作者 张艳宁 赵荣椿 H Sahli Ilse Ravyse W Verhelst 《电子与信息学报》 EI CSCD 北大核心 2008年第12期2906-2911,共6页
语音和唇部运动的异步性是多模态融合语音识别的关键问题,该文首先引入一个多流异步动态贝叶斯网络(MS-ADBN)模型,在词的级别上描述了音频流和视频流的异步性,音视频流都采用了词-音素的层次结构。而多流多状态异步DBN(MM-ADBN)模型是MS... 语音和唇部运动的异步性是多模态融合语音识别的关键问题,该文首先引入一个多流异步动态贝叶斯网络(MS-ADBN)模型,在词的级别上描述了音频流和视频流的异步性,音视频流都采用了词-音素的层次结构。而多流多状态异步DBN(MM-ADBN)模型是MS-ADBN模型的扩展,音视频流都采用了词-音素-状态的层次结构。本质上,MS-ADBN是一个整词模型,而MM-ADBN模型是一个音素模型,适用于大词汇量连续语音识别。实验结果表明:基于连续音视频数据库,在纯净语音环境下,MM-ADBN比MS-ADBN模型和多流HMM识别率分别提高35.91%和9.97%。 展开更多
关键词 语音识别 动态贝叶斯网络 音视频 多流异步
在线阅读 下载PDF
基于动态贝叶斯网络的大词汇量连续语音识别和音素切分研究 被引量:1
6
作者 吕国云 蒋冬梅 +2 位作者 张艳宁 赵荣椿 Hichem Sahli 《西北工业大学学报》 EI CAS CSCD 北大核心 2008年第2期173-178,共6页
提出一个新颖的单流多状态动态贝叶斯网络(Single stream Multi-states DynamicBayesian Network,SM-DBN)模型,以实现大词汇量连续语音识别和音素切分。该模型在Bilmes等人提出的单流动态贝叶斯网络(Single stream Dynamic Bayesian Net... 提出一个新颖的单流多状态动态贝叶斯网络(Single stream Multi-states DynamicBayesian Network,SM-DBN)模型,以实现大词汇量连续语音识别和音素切分。该模型在Bilmes等人提出的单流动态贝叶斯网络(Single stream Dynamic Bayesian Network,Phone-shared,SS-DBN-P)模型(识别基元为词)基础上,增加了一个隐含的状态节点层,每个词由它的对应音素组成,而音素采用固定个数的状态描述,状态和观测向量直接连接。它的识别基元为音素,描述了音素的动态发音变化过程。大词汇量语音识别的实验结果表明:在纯净语音环境下,SM-DBN模型的识别率比HMM和SS-DBN-P模型的识别率分别提高了13.01%和35.2%,而音频流的音素切分正确率则分别提高了10%和44%。 展开更多
关键词 动态贝叶斯网络 音视频语音识别音素切分
在线阅读 下载PDF
双模型语音识别中的听视觉合成和模型同步异步性实验研究 被引量:3
7
作者 谢磊 蒋冬梅 +4 位作者 Ilse Ravyse 赵荣椿 Hichem Sahli Werner Verhelst Jan Cornelis 《西北工业大学学报》 EI CAS CSCD 北大核心 2004年第2期171-175,共5页
研究了双模型语音识别系统中前合成和后合成两种听觉视觉合成方法 ;同时在后合成方法中引入了考虑听觉和视觉同步异步特点的复合模型。仿真实验证明了在声学噪音环境下 ,后合成方法能够带来比较理想的识别效果 ;考虑听觉和视觉同步异步... 研究了双模型语音识别系统中前合成和后合成两种听觉视觉合成方法 ;同时在后合成方法中引入了考虑听觉和视觉同步异步特点的复合模型。仿真实验证明了在声学噪音环境下 ,后合成方法能够带来比较理想的识别效果 ;考虑听觉和视觉同步异步性的模型可以有效地提高识别率。 展开更多
关键词 语音识别 双模型语音识别 听觉视觉合成 模型同步异步性
在线阅读 下载PDF
基于多流动态贝叶斯网络的音视频连续语音识别
8
作者 吕国云 蒋冬梅 +3 位作者 赵荣椿 张艳宁 H Sahli 蒋晓悦 《西北工业大学学报》 EI CAS CSCD 北大核心 2008年第4期518-523,共6页
针对说话时发音和口形的异步问题,提出了一个多流异步动态贝叶斯网络(Dynamic Bayesian Network,DBN)模型,以实现基于音视频特征的连续语音识别,在这个模型中,音频流和视频流在词节点同步,而在词节点之间,音视频流有各自独立... 针对说话时发音和口形的异步问题,提出了一个多流异步动态贝叶斯网络(Dynamic Bayesian Network,DBN)模型,以实现基于音视频特征的连续语音识别,在这个模型中,音频流和视频流在词节点同步,而在词节点之间,音视频流有各自独立的拓扑结构以及节点变量之间的条件依赖关系,同时词转移节点变量由音视频流共同确定,模型在词级另q上体现了音视频流的异步性。采用连续数字音视频数据库的实验结果表明,在信噪比为O~30dB的测试环境下,比较单流DBN模型和多流隐马尔可夫模型,平均识别率分别提高了8.68%和10.07%。 展开更多
关键词 多流异步 动态贝叶斯网络 音视频 语音识别
在线阅读 下载PDF
基于BTSM-LDA的口形动态特征及多流异步音视频语音识别
9
作者 吕国云 赵荣椿 +3 位作者 蒋冬梅 H.Sahli 樊养余 W.Verhelst 《数据采集与处理》 CSCD 北大核心 2008年第4期397-403,共7页
引入一种基于贝叶斯切线形状模型(BTSM)的口形轮廓特征提取和基于线性判别分析(LDA)的视觉语音动态特征提取方法,该特征充分体现了口形特征变化的动态性,消除了直接口形轮廓几何特征的冗余。同时采用一种新颖的多流异步动态贝叶... 引入一种基于贝叶斯切线形状模型(BTSM)的口形轮廓特征提取和基于线性判别分析(LDA)的视觉语音动态特征提取方法,该特征充分体现了口形特征变化的动态性,消除了直接口形轮廓几何特征的冗余。同时采用一种新颖的多流异步动态贝叶斯网络(MS—ADBN)模型来实现音视频的连续语音识别,该模型在词节点级别体现了音视频流的同步异步性。识别实验结果表明:采用LDA视觉语音动态特征的系统性能明显优于静态的口形轮廓几何特征,在语音信噪比为0~30dB的测试环境下,融合LDA视觉特征的MS—ADBN模型比多流异步HMM的平均识别率提高4.92%,说明MS—ADBN模型更好地表达了音视频流之间的异步关系。 展开更多
关键词 动态贝叶斯网络 语音识别 贝叶斯切线形状模型 多流异步 线性判别分析
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部