期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
基于深度学习的目标说话人语音提取
1
作者 王志雄 《电脑知识与技术》 2024年第10期37-40,共4页
人类能够在多人交谈的复杂环境中专注并识别目标说话人的语音,而现有机器技术尚未完全达到这一水平。针对这一实际应用场景,本文提出了一种时域目标说话人语音提取网络架构,该架构无需将混合语音分解为幅度谱和相位谱,而是直接将其转换... 人类能够在多人交谈的复杂环境中专注并识别目标说话人的语音,而现有机器技术尚未完全达到这一水平。针对这一实际应用场景,本文提出了一种时域目标说话人语音提取网络架构,该架构无需将混合语音分解为幅度谱和相位谱,而是直接将其转换为嵌入系数,从而规避了复杂的相位估计。该网络由四个关键部分构成,即说话人辅助网络、语音编码器、目标说话人语音提取器以及语音解码器。具体而言,语音编码器负责将混合语音转化为嵌入系数;说话人辅助网络则通过学习以说话人嵌入形式表示目标说话人特征;目标说话人语音提取器以嵌入系数与目标说话人嵌入作为输入,进而估计出一个接收掩模;最后,语音解码器根据处理过的嵌入系数重新构造出目标说话人的语音。实验结果显示,在开放评测环境下,相较于基准模型,所提方法在SDR(Signal-to-Distortion Ratio)和SI-SDR(Source-to-Interference Signal-to-Distortion Ratio)指标上分别取得了相对提升2.62dB和2.52dB的成绩。实验结果有力证明了该方法具有更好的抗干扰性和泛化性能。 展开更多
关键词 单通道 目标说话人语音提取 时域语音信号 泛化性 语音编码器 语音解码器
在线阅读 下载PDF
从任意连续语音中实时提取说话人特征及三维显示
2
作者 俞振利 张礼和 《杭州大学学报(自然科学版)》 CSCD 1992年第4期390-397,共8页
本文以最大熵谱法估计得到的多幅浊音的线性预测反射系数矢量序列的长期平均矢量作为说话人特征,定义了特征矢量的平均说话人自差异函数、平均说话人互差异函数和平均说话人互自差异比函数,并对不同说话人特征间的可区分性进行了分析.... 本文以最大熵谱法估计得到的多幅浊音的线性预测反射系数矢量序列的长期平均矢量作为说话人特征,定义了特征矢量的平均说话人自差异函数、平均说话人互差异函数和平均说话人互自差异比函数,并对不同说话人特征间的可区分性进行了分析.采用伪彩色编码原理,实现特征矢量的三维显示。设计了PC/AT和TMS 32010组成主从系统,使语音采样和参劲估计同步进行,达到了实时性.实验结果表明,所提取的特征有较好地区分说话人的性能,显示方法。可读性好、易于直观分析和整体观察.系统实时性好. 展开更多
关键词 语音 说话人 特征提取 实时处理
在线阅读 下载PDF
说话人感知的交叉注意力说话人提取网络
3
作者 李卓璋 许柏炎 +1 位作者 蔡瑞初 郝志峰 《广东工业大学学报》 CAS 2024年第3期91-101,共11页
目标说话人提取任务的目标是在一段混合音频中提取特定说话人的语音,任务设置上一般会给一段目标说话人注册音频作为辅助信息。现有的研究工作主要有以下不足:(1)说话人识别的辅助网络无法捕获学习注册音频中的关键信息;(2)缺乏混合音... 目标说话人提取任务的目标是在一段混合音频中提取特定说话人的语音,任务设置上一般会给一段目标说话人注册音频作为辅助信息。现有的研究工作主要有以下不足:(1)说话人识别的辅助网络无法捕获学习注册音频中的关键信息;(2)缺乏混合音频嵌入和注册音频嵌入的交互学习机制。以上不足导致了现有研究工作在注册音频和目标音频之间存在较大差异时有说话人混淆问题。为了解决该问题,提出说话人感知的交叉注意力说话人提取网络(Speaker-aware Cross Attention Speaker Extraction Network,SACAN)。SACAN在说话人识别辅助网络引入基于注意力的说话人聚合模块,有效聚合目标说话人声音特性的关键信息和利用混合音频增强目标说话人嵌入。进一步地,SACAN通过交叉注意力构建交互学习机制促进说话人嵌入与混合音频嵌入融合学习,增强了模型的说话人感知能力。实验结果表明,SACAN相比基准方法在STOI和SI-SDRi分别提高了0.013 3、1.069 5 d B,并在说话人混淆相关评估和消融实验中验证了不同模块的有效性。 展开更多
关键词 语音分离 目标说话人提取 说话人嵌入 交叉注意力 多任务学习
在线阅读 下载PDF
孤独症访谈场景下融入角色信息的说话人日志方法
4
作者 王康月 程铭 +2 位作者 谢奕香 邹小兵 李明 《计算机科学》 北大核心 2025年第2期231-241,共11页
说话人日志技术在智能语音转写领域扮演着关键的角色,其核心任务是按照说话人的身份对多人音频进行分割和聚类,以便更好地对音频内容及转写文本进行整理。在医疗访谈领域,说话人日志技术是自动化评估的前置条件。医疗交互对话领域天然... 说话人日志技术在智能语音转写领域扮演着关键的角色,其核心任务是按照说话人的身份对多人音频进行分割和聚类,以便更好地对音频内容及转写文本进行整理。在医疗访谈领域,说话人日志技术是自动化评估的前置条件。医疗交互对话领域天然存在角色信息,以孤独症辅助诊断为例,典型的情境包括医生、家长和接受诊断的孩子这3种明确定义的角色。但在实际对话中,角色和说话人之间的对应关系可能并非一一对应。例如,在孤独症诊断过程中,每次会话仅涉及一个孩子,而医生或家长的数量却是不确定的。文中认为语音片段中隐含的角色信息与声纹信息可以进行有效的互补,进而降低错误率,故提出一种将角色信息引入序列到序列目标说话人语音活动检测(Seq2Seq-TSVAD)中的方法。在CPEP-3数据集上,说话人日志的错误率(DER)为20.61%,相比Seq2Seq-TSVAD方法降低了9.8%,相比模块化说话人日志方法降低了19.3%,表明孤独症访谈场景下角色信息在提升说话人日志性能方面具有明显的作用。 展开更多
关键词 说话人日志 角色分类 特定说话人语音活动检测 声纹特征提取 孤独症谱系障碍
在线阅读 下载PDF
基于嵌入式注意机制的目标语音提取算法 被引量:2
5
作者 郭志楷 杨明堃 +3 位作者 蒋国峰 陶祁 刘欢欢 马红强 《计算机测量与控制》 2023年第10期174-181,共8页
针对说话人语音提取问题,提出了一种基于深度神经网络多任务学习的嵌入式注意机制单声道说话人语音提取方法;该算法将语音分离和语音提取统一到单个框架中,向频谱映射分离模型中嵌入说话人注意机制,并在引入说话人辅助信息的注意机制中... 针对说话人语音提取问题,提出了一种基于深度神经网络多任务学习的嵌入式注意机制单声道说话人语音提取方法;该算法将语音分离和语音提取统一到单个框架中,向频谱映射分离模型中嵌入说话人注意机制,并在引入说话人辅助信息的注意机制中得到时变注意权重,利用时变注意权重分离出目标说话人的内部嵌入向量,随后采用提取模型对目标说话人的嵌入向量进行非线性处理运算,估计出目标说话人对应的掩蔽,进而提取出目标说话人语音;同时借助TIMIT数据集,进行了语音提取实验;实验结果验证了所提算法的可行性和有效性,并在说话人语音提取的性能上有明显的优越性。 展开更多
关键词 深度神经网络 单声道说话人语音提取 多任务学习 嵌入式注意机制
在线阅读 下载PDF
线性预测分析在说话人特征提取中的应用研究 被引量:1
6
作者 屈微 刘贺平 《计算机工程与应用》 CSCD 北大核心 2005年第13期14-16,共3页
论文基于矢量量化模型下的说话人识别系统,研究了几种说话人特征,即线性预测系数(LPC)及其导出的特征,包括线性预测倒谱系数(LPCC),反射系数(REFL),对数面积比系数(LAR),反正弦系数(ARCSIN)和线谱频率(LSF),以及共振峰。仿真实验中,对... 论文基于矢量量化模型下的说话人识别系统,研究了几种说话人特征,即线性预测系数(LPC)及其导出的特征,包括线性预测倒谱系数(LPCC),反射系数(REFL),对数面积比系数(LAR),反正弦系数(ARCSIN)和线谱频率(LSF),以及共振峰。仿真实验中,对比了不同参数设置情况下这些特征的分类误差,总结出线性预测分析在应用于说话人特征提取时选择参数的规律。 展开更多
关键词 语音信号处理 说话人识别 说话人特征提取 线性预测分析 语音特征
在线阅读 下载PDF
一种改进的语音基频轮廓提取算法 被引量:3
7
作者 江太辉 《五邑大学学报(自然科学版)》 CAS 2002年第2期27-30,34,共5页
在说话人识别课题中,需要提取精确的基频轮廓作为特征参量,但通常使用传统的固定窗口长度的短时自相关函数算法并不能够适应各种不同人的发音. 论文使用了一种可变窗口长度的改进算法,实验表明它有更强的适应能力. 文中还介绍了一种改... 在说话人识别课题中,需要提取精确的基频轮廓作为特征参量,但通常使用传统的固定窗口长度的短时自相关函数算法并不能够适应各种不同人的发音. 论文使用了一种可变窗口长度的改进算法,实验表明它有更强的适应能力. 文中还介绍了一种改进的基频“野点”平滑算法,它能够在去除野点的同时,更好地保存正确点的信息. 展开更多
关键词 语音基频轮廓提取算法 语音信号处理 平滑滤波 语音识别 说话人识别 提取原理
在线阅读 下载PDF
基于二维ICA变换的语音特征提取 被引量:2
8
作者 邹欣 李万龙 +1 位作者 刘琚 Peter Jancovic 《山东大学学报(工学版)》 CAS 2007年第4期85-88,共4页
独立成分分析(ICA)方法已经被广泛地应用于语音信号处理中.讨论了ICA方法在语音信号特征提取中的应用.ICA被应用在对数Mel滤波器组变换域中来代替常用的离散余弦变换,后者被应用来得到Mel倒谱系数(MFCC)特征.我们将应用一种新的方法即二... 独立成分分析(ICA)方法已经被广泛地应用于语音信号处理中.讨论了ICA方法在语音信号特征提取中的应用.ICA被应用在对数Mel滤波器组变换域中来代替常用的离散余弦变换,后者被应用来得到Mel倒谱系数(MFCC)特征.我们将应用一种新的方法即二维ICA方法来发掘语音信号的时域跟频域的信息,从而提高语音特征的效率跟噪声鲁棒性.这些特征被用于基于高斯混合模型的说话人识别应用中.仿真结果表明我们得到的时频二维特征优于传统的一维特征. 展开更多
关键词 独立成份分析 语音特征提取 说话人识别
在线阅读 下载PDF
语音信号处理中特征提取方法研究 被引量:1
9
作者 阎福智 《中国新通信》 2013年第21期127-128,共2页
语音特征提取的常用方法有LPCC、MFCC、PLP等,这些方法都是基于语音信号短时平稳的特性。利用二次特征提取可以通过对原始特征实施加权、微分、组合、筛选进一步提高识别率。本文介绍了语音识别和说话人识别中特征提取的常用方法以及最... 语音特征提取的常用方法有LPCC、MFCC、PLP等,这些方法都是基于语音信号短时平稳的特性。利用二次特征提取可以通过对原始特征实施加权、微分、组合、筛选进一步提高识别率。本文介绍了语音识别和说话人识别中特征提取的常用方法以及最新发展,最后介绍了Hilbert-Huang这一新兴理论成果以及在特征提取中的应用。 展开更多
关键词 语音识别 说话人识别 特征提取 二次特征提取 HHT
在线阅读 下载PDF
基于MFCC的说话人语音识别系统的研究 被引量:3
10
作者 于树本 《黑龙江科技信息》 2015年第27期69-70,共2页
说话人识别是当前语音识别的研究热点之一。本文主要研究了以下几个方面:说话人语音识别系统,对能够反映人对语音感知特性的Mel频率倒谱系数(MFCC)作为特征参数进行提取。同时,分析了概率神经网络PNN,概率神经网络是性能良好的分类神经... 说话人识别是当前语音识别的研究热点之一。本文主要研究了以下几个方面:说话人语音识别系统,对能够反映人对语音感知特性的Mel频率倒谱系数(MFCC)作为特征参数进行提取。同时,分析了概率神经网络PNN,概率神经网络是性能良好的分类神经网络。实验结果表明,概率神经网络PNN对训练的语音样本有着很高的分类准确率。 展开更多
关键词 MEL频率倒谱系数 概率神经网络 说话人语音识别系统 特征提取
在线阅读 下载PDF
基于元学习自适应的小样本语音合成
11
作者 吴郅昊 迟子秋 +1 位作者 肖婷 王喆 《计算机应用》 CSCD 北大核心 2024年第5期1629-1635,共7页
在小样本条件下的语音合成(TTS)要求在仅有少量样本的情况下合成与原说话人相似的语音,然而现有的小样本语音合成面临如下问题:如何快速适配新说话人,并且在保证语音质量的情况下提高生成语音与说话人的相似性。现有模型在适配新说话人... 在小样本条件下的语音合成(TTS)要求在仅有少量样本的情况下合成与原说话人相似的语音,然而现有的小样本语音合成面临如下问题:如何快速适配新说话人,并且在保证语音质量的情况下提高生成语音与说话人的相似性。现有模型在适配新说话人的过程中,很少考虑到在不同适配阶段模型特征的变化规律,导致生成语音不能在保证语音质量的情况下快速提升语音相似性。为了解决上述问题,提出一种使用元学习指导模型适配新说话人的方法,模型中通过元特征模块对适配过程进行指导,在适配新说话人过程中提升语音相似度的同时保证生成语音质量;并通过步数编码器区分不同的适配阶段,以提升模型适配新说话人的速度。在Libri-TTS与VCTK数据集上通过主观与客观评价指标,在不同的适配步数下对现有快速适配新说话人的方法进行了比较,实验结果表明所提方法动态时间规整的梅尔倒谱失真(DTW-MCD)分别为7.4502与6.5243,在合成语音的相似度上优于其他元学习方法,并且能够更快适配新的说话人。 展开更多
关键词 小样本生成 语音合成 元学习 说话人适配 特征提取
在线阅读 下载PDF
基于矢量量化的说话人识别研究 被引量:8
12
作者 周星 孟晨 +3 位作者 杨锁昌 魏保华 周星 王成友 《计算机工程与设计》 CSCD 2002年第11期12-14,62,共4页
说话人识别可以看作语音识别的一种,是当前研究的热点之一。阐明了说话人识别的基本概念、发展状况以及原理和方法,并介绍了一种基于矢量量化的且与文本无关的说话人识别系统。
关键词 矢量量化 说话人识别 语音识别 特征提取 计算机
在线阅读 下载PDF
说话人识别的几种方法 被引量:11
13
作者 宁飞 陈频 《电声技术》 北大核心 2001年第12期9-14,共6页
以说话人识别的几个关键问题为纲,说明了国内外现有的识别方法和结果,以及存在的问题和难点,并提出了一些新想法。
关键词 说话人 语音识别 特征提取
在线阅读 下载PDF
基于特征音素的说话人识别方法 被引量:1
14
作者 王昌龙 周福才 +1 位作者 凌裕平 於锋 《仪器仪表学报》 EI CAS CSCD 北大核心 2007年第10期1831-1835,共5页
本文提出了一种基于特征音素的说话人识别方法,并在低成本门禁系统中获得实现。首先利用清音和浊音悬殊的数字特征将语音信号中的清音和浊音分离,再将分离后的几个浊音的特征频率和相对强度作为特征参数组成30维特征向量。在PC上进行了... 本文提出了一种基于特征音素的说话人识别方法,并在低成本门禁系统中获得实现。首先利用清音和浊音悬殊的数字特征将语音信号中的清音和浊音分离,再将分离后的几个浊音的特征频率和相对强度作为特征参数组成30维特征向量。在PC上进行了高阶谱分析和快速傅里叶变换,比较了2种方法声韵分离的效果。然后分别用神经网络识别算法和模板比对法进行识别实验,主要应用目标为单住户语音门禁系统,具有自学习功能,能随着家庭成员的年龄和生理变化不断调整特征向量模板,该方法已在低成本单片机系统中实现。 展开更多
关键词 语音信号处理 说话人识别 特征提取 频谱分析
在线阅读 下载PDF
基于多维参数的语音身份认证系统研究 被引量:2
15
作者 苗凤娟 陶佰睿 《齐齐哈尔大学学报(自然科学版)》 2006年第4期44-46,共3页
本文研究了与文本相关说话人语音通过多维参数的语音身份认证系统进行身份认证的过程。重点研究了小波降噪、语音增强、辅助加权MFCC语音特征提取,混合HMM语音辨识的算法及实现问题。试验表明该技术在认证效率、准确度、自适应性方面有... 本文研究了与文本相关说话人语音通过多维参数的语音身份认证系统进行身份认证的过程。重点研究了小波降噪、语音增强、辅助加权MFCC语音特征提取,混合HMM语音辨识的算法及实现问题。试验表明该技术在认证效率、准确度、自适应性方面有较好表现。 展开更多
关键词 说话人认证 小波降噪 小波语音增强 特征向量提取 加权MFCC混合HMM
在线阅读 下载PDF
噪声环境下说话人识别性能的研究
16
作者 张飞云 蔡子亮 盛胜我 《电声技术》 2007年第6期41-43,共3页
为了提高噪声环境下说话人识别系统的识别性能,将基于听觉掩蔽效应的语音增强技术作为预处理器,对语音信号首先进行降噪处理,提高输入信号的信噪比。实验证明,经过降噪处理的语音信号送入说话人识别系统,提高了系统的识别性能。
关键词 说话人识别 高斯混合模型 特征提取 掩蔽阈值 语音增强
在线阅读 下载PDF
一种鲁棒的说话人识别新特征
17
作者 谢怡宁 黄金杰 《哈尔滨理工大学学报》 CAS 2013年第4期47-51,共5页
说话人识别系统不可避免地会受到噪声的影响,导致性能急剧降低,针对这一问题采用感知最小方差无畸变响应(PMVDR)技术,提出了一种新的语音特征提取方法.该特征基于平移差分倒谱算法,成功地融入了说话人语音的长时信息.所提取的特征不仅... 说话人识别系统不可避免地会受到噪声的影响,导致性能急剧降低,针对这一问题采用感知最小方差无畸变响应(PMVDR)技术,提出了一种新的语音特征提取方法.该特征基于平移差分倒谱算法,成功地融入了说话人语音的长时信息.所提取的特征不仅在干净环境下能取得良好性能,而且在混噪语音以及信道失配等声学条件下也优于目前主流的特征.在YOHO数据库和ROSSI数据库上的实验结果表明,新特征在噪声和信道畸变的情况下能有效提高识别系统的鲁棒性. 展开更多
关键词 说话人识别 特征提取 语音特征 噪声 鲁棒性
在线阅读 下载PDF
不依赖于文本的说话人识别研究及其应用 被引量:8
18
作者 于世功 田岚 李传林 《计算机工程与应用》 CSCD 北大核心 2000年第4期75-77,共3页
说话人识别在自动身份鉴别方面具有重要的现实意义。文章在分析了说话人识别实现的可行性基础上,提出采用长时线性预测倒谱(LPCCEP)系数和矢量量化(VQ)模型的不依赖于文本的说话人识别方法,并成功地应用于一个数据库查询... 说话人识别在自动身份鉴别方面具有重要的现实意义。文章在分析了说话人识别实现的可行性基础上,提出采用长时线性预测倒谱(LPCCEP)系数和矢量量化(VQ)模型的不依赖于文本的说话人识别方法,并成功地应用于一个数据库查询系统中。该方法训练时间短,识别响应实时,数据存储量少。实验表明,在100名说话人集合内,识别率达98%。 展开更多
关键词 说话人识别 特征提取 文本 语音信号 语音识别
在线阅读 下载PDF
基于深度神经网络的说话人年龄分类研究 被引量:1
19
作者 杨治学 黄浩 +1 位作者 胡英 吾守尔·斯拉木 《现代电子技术》 2021年第10期120-124,共5页
说话人年龄分类是通过说话人的语音来估测说话人的年龄范围,属于说话人属性分析的重要内容。传统说话人年龄分类是利用人工提取特征加后端分类器的方法,这种方法不一定能够得到最优的分类效果。针对该问题,利用深度神经网络自动获取特... 说话人年龄分类是通过说话人的语音来估测说话人的年龄范围,属于说话人属性分析的重要内容。传统说话人年龄分类是利用人工提取特征加后端分类器的方法,这种方法不一定能够得到最优的分类效果。针对该问题,利用深度神经网络自动获取特征表示的能力,提出一种基于深度神经网络的年龄分类方法,采用提取文本无关的说话人语音特征来通过深度神经网络对说话人年龄进行分类。在1000 h的AISHELL⁃2中文开源语音数据库上验证了所提出方法的有效性。与基于i⁃vector结合后端分类器的两阶段说话人年龄分类方法做了比较,实验结果证明,与i⁃vector方法相比,识别正确率获得了3.08%的性能提升。 展开更多
关键词 说话人年龄分类 深度神经网络 语音特征提取 说话人识别 数据分析 比较实验
在线阅读 下载PDF
说话人识别算法的定点DSP实现 被引量:3
20
作者 申志生 于明 《单片机与嵌入式系统应用》 2011年第3期78-79,共2页
引言 说话人识别又称声纹识别,是通过说话人的声音特征进行身份认证的一种生物特征识别技术。说话人识别经过60多年的研究,已经逐步应用到法律、银行等各个领域。说话人识别通过对语音信号进行处理,提取说话人语音当中的生物学个性... 引言 说话人识别又称声纹识别,是通过说话人的声音特征进行身份认证的一种生物特征识别技术。说话人识别经过60多年的研究,已经逐步应用到法律、银行等各个领域。说话人识别通过对语音信号进行处理,提取说话人语音当中的生物学个性特征,在特征空间建立不同个体的特征模型,从而实现说话人的识别。识别的关键算法包括特征提取和建立模型两个方面,参考文献[1]从基本概念到特征提取,再到模型建立,对说话人识别中涉及的主要算法进行了详细的综述,并比较了各种算法的优劣。 展开更多
关键词 说话人识别 识别算法 DSP实现 生物特征识别技术 定点 特征模型 特征提取 语音信号
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部