基于非线性时频掩蔽的语音盲分离方法被引量：9

Blind speech source separation via nonlinear time-frequency masking

在线阅读下载PDF

导出

摘要针对语音信号的欠定卷积混合模型,利用独立语音在时频域上的近似W-分离正交性(W-DO),提出了一种基于非线性时频掩蔽的盲分离方法。首先对多传声器观测信号在时频域上进行规范化处理,使混合信号在每个时频槽的表示与频率无关,然后采用动态聚类算法获取时频槽对应的活跃源信息,选择关于簇中心偏角的非线性函数进行时频掩蔽,从而实现语音信号的盲分离。该方法解决了经典频域盲分离算法中的频率置换问题,能有效抑制分离矩阵的空间方向扩散。仿真实验表明,与BLUES方法相比具有更优的分离性能,信噪比增益平均增加1．58 dB。 A blind speech source separation method for the underdetermined convolutive mixture model is proposed via nonlinear time-frequency masking, the approximate W-disjoint orthogonality （W-DO） property of independent speech signals in the time-frequency domain is exploited. Firstly the observation mixture signal from multi-microphones is normalized to be independent of frequency in the time-frequency domain, then the dynamic clustering algorithm is developed to obtain the active source information in each time-frequency slot, a nonlinear function of deflection angle from the clustering center is selected for time-frequency masking, finally the blind separation of mixture speech signals can be achieved. This novel method can not only overcome the problem of frequency permutation which may be met in most classic frequency-domain blind separation techniques, but suppress the spatial direction diffusion of the separation matrix. Simulation results demonstrate that our proposed separation method outperform the typical BLUES method, the signal-noise-ratio gain （SNRG） is improved 1.58 dB averagely.

作者徐舜陈绍荣刘郁林

机构地区重庆通信学院DSP实验室

出处《声学学报》 EI CSCD 北大核心 2007年第4期375-381,共7页 Acta Acustica

基金国家自然科学基金(60672157 60672158)

关键词非线性函数语音信号分离方法时频域掩蔽盲分离算法动态聚类算法信噪比增益 Clustering algorithms Computer simulation Signal to noise ratio

分类号 TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献13

1Haykin S.Unsupervised adaptive filtering,volume 1:blind source separation.John Wiley & Sons Canada,Ltd.2000.
2Araki S,Makino S et al.Blind separation of more speech than sensors with less distortion by combining sparseness and ICA.In:Proc.IWAENC2003,2003:271-274.
3Parra L,Spence C.Convolutive blind separation of nonstationary sources.IEEE Trans.Speech Audio Process,2000; 8(3):320-327.
4Yilmaz O,Rickard S.Blind separation of speech mixtures via time-frequency masking.IEEE Trans.Signal Processing,2004; 52(7):1830-1847.
5Pedersen M S,Wang D et al.Separating underdetermined convolutive speech mixtures.ICA2006,2006(3889):674-681.
6Pedersen M S,Wang D et al.Overcomplete blind source separation by combining ICA and binary time-frequency masking.In:Proc.MLSP workshop,2005.
7Belouchrani A,Amin M G.Blind source separation based on time-frequency signal representations.IEEE Trans.Signal Processing,1998; 46(11):2888-2897.
8Fevotte C,Doncarli C.Two contributions to blind source separation using time -frequency distributions.IEEE Signal Processing Letters,2004; 11(3):1-10.
9Li Y,Cichocki A et al.Analysis of sparse representation and blind source separation.Neural Computatio,2004;16(6):1193-1234.
10陈健,陆佶人.噪声背景下双输入时延混合系统的盲源分离[J].声学学报,2002,27(5):477-480. 被引量：7

二级参考文献20

1饶丹,谢菠荪,谢志文.双通路立体声条件下的双耳掩蔽[J].电声技术,2005,29(2):53-56. 被引量：8
2Freymaaa et al. The role of perceived spatial separation in the unmasking of speech. J. Acoust. Soc. Am., 1999; 106:3578-3588
3Good et al. The relation between detection in noise and localization in noise in the free field. Binaural and Spatial Heaving in Real and Virtual Environments, Edited by R.Gilkey and T. Anderson Erlbaum, New York, 1997: 349-376
4Doll T J, Hanna T E. Spatial and spectral release from masking in three-dimensional auditory displays. Hum.Factors, 1995; 37:341-355
5Gatehouse R W. Further research on free-field masking. J.Acoust. Soc. Am. 1987; 82(Suppl.1): S108
6Moore B C J. An introduction to the psychology of hearing. Second Edition, Academic Press, Orlando, F1, USA,1982, Chapter 5
7Johnston J D, Ferreira A J. Sum-difference stereo transfer coding. In: Proc. IEEE ICASSP, 1992:569-571
8Douglas S et al. The effects of spatial separation in distance on the informational and energetic masking of a nearby speech signal. J. Acoust. Soc. Am., 2002; 112(2): 664-676
9Zwicker E, Flottorp G, Stevens S S. Critical Bandwid thin Loudness Summation. J. Acoust. Soc. Am., 1957; 29:548-557
10Zwicker E. Psychoacoustics facts and models. Springer-Verlag, 1990

共引文献14

1钟小丽,谢菠荪.头相关传输函数空间对称性的分析[J].声学学报,2007,32(2):129-136. 被引量：5
2谢志文,金晶.耳机重发下延迟时间对空间分离前向掩蔽效应影响的研究[J].声学学报,2008,33(3):283-287. 被引量：1
3XU Shun CHEN Shaorong LIU Yulin.Blind speech source separation via nonlinear time-frequency masking[J].Chinese Journal of Acoustics,2008,27(3):203-214.
4XIE Zhiwen JIN Jing.The influence of time delay on forward masking when spatially separated sound image reproduced with headphone[J].Chinese Journal of Acoustics,2008,27(4):289-296.
5张华,冯大政,庞继勇.卷积混迭语音信号的联合块对角化盲分离方法[J].声学学报,2009,34(2):167-174. 被引量：7
6孟庆华,赵文礼,曾复,樊志华.基于不相关性的非稳态信号解耦技术[J].农业机械学报,2009,40(5):203-206.
7ZHANG Hua,FENG Dazheng,PANG Jiyong.Blind convolutive separation method for speech signals via joint block diagonalization[J].Chinese Journal of Acoustics,2010,29(1):45-55.
8吕钊,吴小培,李密.基于频域ICA的语音特征增强[J].振动与冲击,2011,30(2):238-242. 被引量：1
9夏秀渝,何培宇.基于声源方位信息和非线性时频掩蔽的语音盲提取算法[J].声学学报,2013,38(2):224-230. 被引量：10
10赵郧安.城市地铁环境导示音设计初探─—以西安市地铁2号线导示音设计为例[J].装饰,2013(10):88-89. 被引量：1

同被引文献149

1赵知劲.一种时频域上的盲信号分离方法[J].信号处理,2004,20(4):384-386. 被引量：2
2赵鹤鸣,葛良,陈雪勤,俞一彪.基于声音定位和听觉掩蔽效应的语音分离研究[J].电子学报,2005,33(1):158-160. 被引量：16
3彭春翌,朱孝龙,张贤达.基于斜投影的卷积信道盲信号分离[J].清华大学学报（自然科学版）,2005,45(4):517-520. 被引量：5
4郑勇,冯大政.基于子空间方法的多输入多输出信道盲辨识与均衡[J].自然科学进展,2006,16(4):463-469. 被引量：4
5谢志文,尹俊勋,饶丹.空间掩蔽效应的实验研究[J].声学学报,2006,31(4):363-369. 被引量：10
6胡可,汪增福.一种基于时频分析的语音卷积信号盲分离算法[J].电子学报,2006,34(7):1246-1254. 被引量：12
7赵彩华,刘琚,孙建德,闫华.基于小波变换和独立分量分析的含噪混叠语音盲分离[J].电子与信息学报,2006,28(9):1565-1568. 被引量：14
8HE Zhaoshui XIE Shengli FU Yu.Sparse representation and blind source separation of ill-posed mixtures[J].Science in China(Series F),2006,49(5):639-652. 被引量：24
9汪军,何振亚.卷积混叠信号盲分离[J].电子学报,1997,25(7):7-11. 被引量：5
10苗浩,李晓东,田静.一种用于语音增强的频域盲信号分离算法[J].声学技术,2007,26(3):431-434. 被引量：4

引证文献9

1张华,冯大政,庞继勇.卷积混迭语音信号的联合块对角化盲分离方法[J].声学学报,2009,34(2):167-174. 被引量：7
2王国鹏,刘郁林,罗颖光.结合主分量分析与DOA估计的语音盲分离[J].声学技术,2009,28(5):624-628.
3ZHANG Hua,FENG Dazheng,PANG Jiyong.Blind convolutive separation method for speech signals via joint block diagonalization[J].Chinese Journal of Acoustics,2010,29(1):45-55.
4吕钊,吴小培,张超,李密.卷积噪声环境下语音信号鲁棒特征提取[J].声学学报,2010,35(4):465-470. 被引量：3
5刘伯权,曾以成,邬鑫锋.独立分量分析与时频掩蔽结合的语音盲分离[J].计算机工程与应用,2010,46(32):130-132.
6夏秀渝,何培宇.基于声源方位信息和非线性时频掩蔽的语音盲提取算法[J].声学学报,2013,38(2):224-230. 被引量：10
7方标,黄高明,高俊.多通道盲反卷积算法综述[J].信号处理,2013,29(6):712-722. 被引量：5
8钱思冲,向阳,李胜杨,李恒.基于独立分量分析与二值掩膜的语音分离[J].华中科技大学学报（自然科学版）,2015,43(7):87-92. 被引量：2
9刘镇,吕超,范远超.基于深度学习的多声源并行化声纹辨别方法[J].江苏科技大学学报（自然科学版）,2018,32(1):106-111. 被引量：6

二级引证文献33

1吕钊,吴小培,张超,李密.卷积噪声环境下语音信号鲁棒特征提取[J].声学学报,2010,35(4):465-470. 被引量：3
2顾凡,王惠刚,李虎雄.一种强混响环境下的盲语音分离算法[J].信号处理,2011,27(4):534-540. 被引量：4
3章林柯,江涌,何琳,崔立林.均匀度估计的噪声源盲分离算法研究[J].声学学报,2012,37(2):158-163.
4张小华,彭首峰,裴浩.基于盲源分离的语音降噪研究[J].湖北工业大学学报,2013,28(1):75-77. 被引量：1
5何勇军,付茂国,孙广路.语音特征增强方法综述[J].哈尔滨理工大学学报,2014,19(2):19-25. 被引量：3
6侯雷静,郭婷婷,孙燕,齐英杰,应冬文,唐闽,颜永红.面向心音分割的个性化高斯混合建模方法[J].声学学报,2019,44(1):20-27. 被引量：7
7陈超,何怡刚,尹柏强,方葛丰,樊晓腾,佘开.改进频点权重系数的频域盲源分离排序算法[J].计算机应用研究,2014,31(12):3752-3755. 被引量：2
8张凤仪,夏秀渝,冉国敬,何礼,叶于林.多声源环境下的鲁棒说话人识别[J].计算机系统应用,2015,24(4):32-37. 被引量：1
9钱思冲,向阳,李恒,李胜杨,施雨骁,李瑞.基于计算听觉场景分析的内燃机噪声源分离方法[J].内燃机学报,2015,33(1):63-70. 被引量：1
10钱思冲,向阳,李胜杨,李恒.基于独立分量分析与二值掩膜的语音分离[J].华中科技大学学报（自然科学版）,2015,43(7):87-92. 被引量：2

1梁山,刘文举,江巍.基于噪声追踪的二值时频掩蔽到浮值掩蔽的泛化算法[J].声学学报,2013,38(5):632-637. 被引量：5
2李洪,孙云莲.基于奇异值分解的欠定ICA算法研究[J].计算机应用与软件,2008,25(2):231-233.
3贾志海,牛刚,王经.基于动态聚类算法的两相流流型识别方法研究[J].热能动力工程,2004,19(2):182-185. 被引量：2
4陈越,吕善翔,王梦蛟,冯久超.一种基于人工蜂群算法的混沌信号盲分离方法[J].物理学报,2015,64(9):207-215. 被引量：3
5张娅琳,章晋龙.一种基于罚函数的盲分离算法[J].长江大学学报（自科版）（上旬）,2006,3(2):10-12.
6李雪霞,冯久超.一种混沌信号的盲分离方法[J].物理学报,2007,56(2):701-706. 被引量：16
7吴光旭.关于奇解析函数的几个掩蔽定理[J].工科数学,1998,14(2):1-5.
8丁丹,贾亮,盛中平.Hausdorff测度的规范化处理[J].东北师大学报（自然科学版）,2013,45(1):13-16. 被引量：1
9焦尚彬,杨蓉,张青,谢国.α稳定噪声驱动的非对称双稳随机共振现象[J].物理学报,2015,64(2):45-53. 被引量：14
10章林柯,江涌,何琳,崔立林.均匀度估计的噪声源盲分离算法研究[J].声学学报,2012,37(2):158-163.

声学学报

2007年第4期

浏览历史

内容加载中请稍等...

基于非线性时频掩蔽的语音盲分离方法被引量：9

参考文献13

二级参考文献20

共引文献14

同被引文献149

引证文献9

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

基于非线性时频掩蔽的语音盲分离方法 被引量：9

参考文献13

二级参考文献20

共引文献14

同被引文献149

引证文献9

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

基于非线性时频掩蔽的语音盲分离方法被引量：9