声纹识别技术主要技术部分有哪些？

 我来答

1个回答

#热议# 应届生在签三方时要注意什么？

小肚子将将
2017-01-13 · TA获得超过1.7万个赞

知道小有建树答主

回答量：153

采纳率：0%

帮助的人：253万

我也去答题访问个人页

关注

展开全部

声纹主要的技术难点在于如何对语音信号进行说话人相关的信息提取和表示。一般而言对一段语音说话人相关特征的提取主要是按照如图所示的流程进行：

对于收集到的语音，首先会进行有效语音检测（VAD），将收集到的语音中非有效部分的语音进行切除，然后进行声学特征提取。由于语音信号是一种短时非平稳不定长的信号，因此一般提取特征都是采取加窗得到以帧为单位的特征。目前采用的声学特征普遍为经典的梅尔频率倒谱系数MFCC、感知现行预测系数PLP，以及目前火热的基于深度学习的特征deep feature。在得到声学特征之后，就是说话人信息的进一步提取。我们采用的建模方法主要采用ivector算法以及带残差处理的深度卷积神经网络算法。通过建模后，我们就能够对语音进行更深层次的特征表示，使得说话人相关的信息进一步被呈现。最后得到的模型，就能够将特征提取阶段得到的特征进一步转化为能够表征说话人特性的样本。这样，我们就能够将特定说话人的语音彻底转换为能够表征该说话人特性的模型。

识别匹配阶段就相对容易理解了，在采集到测试语音之后，进行相应的特征提取操作，然后通过与模版库里面的所有模板样本进行相似距离计算，然后选择距离最近的一个作为最后的判决结果。（如下图）

本回答由提问者推荐

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

虹膜人脸门禁Tel:400——992——5202=1分钟前有人咨询

www.szlvbarcode.com

声纹识别技术主要技术部分有哪些？

您可能关注的内容

其他类似问题

为你推荐：