声纹识别技术主要技术部分有哪些?
声纹主要的技术难点在于如何对语音信号进行说话人相关的信息提取和表示。一般而言对一段语音说话人相关特征的提取主要是按照如图所示的流程进行:
对于收集到的语音,首先会进行有效语音检测(VAD),将收集到的语音中非有效部分的语音进行切除,然后进行声学特征提取。由于语音信号是一种短时非平稳不定长的信号,因此一般提取特征都是采取加窗得到以帧为单位的特征。目前采用的声学特征普遍为经典的梅尔频率倒谱系数MFCC、感知现行预测系数PLP,以及目前火热的基于深度学习的特征deep feature。在得到声学特征之后,就是说话人信息的进一步提取。我们采用的建模方法主要采用ivector算法以及带残差处理的深度卷积神经网络算法。通过建模后,我们就能够对语音进行更深层次的特征表示,使得说话人相关的信息进一步被呈现。最后得到的模型,就能够将特征提取阶段得到的特征进一步转化为能够表征说话人特性的样本。这样,我们就能够将特定说话人的语音彻底转换为能够表征该说话人特性的模型。
识别匹配阶段就相对容易理解了,在采集到测试语音之后,进行相应的特征提取操作,然后通过与模版库里面的所有模板样本进行相似距离计算,然后选择距离最近的一个作为最后的判决结果。(如下图)