声纹识别技术主要技术部分有哪些?

 我来答
小肚子将将
2017-01-13 · TA获得超过1.7万个赞
知道小有建树答主
回答量:153
采纳率:0%
帮助的人:253万
展开全部

      声纹主要的技术难点在于如何对语音信号进行说话人相关的信息提取和表示。一般而言对一段语音说话人相关特征的提取主要是按照如图所示的流程进行:

      对于收集到的语音,首先会进行有效语音检测(VAD),将收集到的语音中非有效部分的语音进行切除,然后进行声学特征提取。由于语音信号是一种短时非平稳不定长的信号,因此一般提取特征都是采取加窗得到以帧为单位的特征。目前采用的声学特征普遍为经典的梅尔频率倒谱系数MFCC、感知现行预测系数PLP,以及目前火热的基于深度学习的特征deep feature。在得到声学特征之后,就是说话人信息的进一步提取。我们采用的建模方法主要采用ivector算法以及带残差处理的深度卷积神经网络算法。通过建模后,我们就能够对语音进行更深层次的特征表示,使得说话人相关的信息进一步被呈现。最后得到的模型,就能够将特征提取阶段得到的特征进一步转化为能够表征说话人特性的样本。这样,我们就能够将特定说话人的语音彻底转换为能够表征该说话人特性的模型。

      识别匹配阶段就相对容易理解了,在采集到测试语音之后,进行相应的特征提取操作,然后通过与模版库里面的所有模板样本进行相似距离计算,然后选择距离最近的一个作为最后的判决结果。(如下图)

推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式