期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于多维度注意力机制和复数Conformer的单通道语音增强方法
1
作者 高盛祥 莫尚斌 +2 位作者 余正涛 董凌 王文君 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2024年第2期393-403,共11页
为提高被噪声干扰的语音的可理解性和语音质量,针对用于语音增强的深度复数网络对语音复数谱中关键声学特征提取不充分、关联信息建模不合理的问题,提出了基于多维度注意力机制和复数Conformer的单通道语音增强方法(SE-MDACC)。在复数U-... 为提高被噪声干扰的语音的可理解性和语音质量,针对用于语音增强的深度复数网络对语音复数谱中关键声学特征提取不充分、关联信息建模不合理的问题,提出了基于多维度注意力机制和复数Conformer的单通道语音增强方法(SE-MDACC)。在复数U-Net架构下引入复数Conformer,对语音幅度和相位的相关性进行建模;利用多维度注意力机制,构造更加丰富的特征来增强卷积层的表示能力;在残差连接中加入注意力门控机制强化重构语音的细节信息。实验结果显示,相比于深度复数卷积递归网络,SE-MDACC的客观评价指标语音质量感知评估和短时客观可懂度分别提升15.299%、1.462%,表明SE-MDACC可充分提取语音声学特征并对幅度和相位相关性进行合理建模,有效提升语音质量和可理解性。 展开更多
关键词 深度复数网络 声学特征 关联信息 多维度注意力机制 语音增强
在线阅读 下载PDF
基于时频信息梯度估计的单通道语音增强方法
2
作者 高盛祥 方妍文 +2 位作者 余正涛 董凌 莫尚斌 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第6期1051-1058,共8页
[目的]语音增强可用于提升现实噪声环境下语音翻译系统的性能.针对现有基于概率扩散模型的语音增强方法存在生成语音结构被破坏、难以对全局特征建模的问题进行研究.[方法]本文提出基于时频信息梯度估计的单通道语音增强方法.首先将语... [目的]语音增强可用于提升现实噪声环境下语音翻译系统的性能.针对现有基于概率扩散模型的语音增强方法存在生成语音结构被破坏、难以对全局特征建模的问题进行研究.[方法]本文提出基于时频信息梯度估计的单通道语音增强方法.首先将语音复数谱送入编码器中提取深层表征,并提出将残差快速傅里叶卷积(residual fast fourier convolution,Res-FFC)用于修复生成语音并对语音全局特征进行建模,同时在编解码的过程中融入语音时域信息.[结果]在公开数据集Voice Bank-DEMAND上的实验结果表明,相比基于分数生成模型的复数时频域语音增强网络(SGMSE),本文所提方法在客观评价指标SI-SDR和WB-PESQ分别提高0.5和0.19.[结论]本文提出的语音增强方法通过融入Res-FFC和语音时域信息,提升了模型对语音全局特征的捕捉能力,可有效抑制噪声,提升语音质量. 展开更多
关键词 语音增强 概率扩散模型 单通道 快速傅里叶卷积
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部