为什么声纹鉴定能否鉴定经过变声器的声音?
首先要介绍语音特殊性和语音的稳定性,(这是声纹鉴定的基本原理,各种教材上有不同风格的表述,但是说的都是一个事儿,我带学生的第一课就是让他们背下这个原理):1、语音的特殊性,发音器官分为声门上系统、喉系统、声门下系统,每个人都有自己的一套发音器官,它们的形态、构造各有差别,每次发音需要众多发音器官相互配合、共同运动。这决定了语音的物理属性(也称语音四要素):音质、音长、音强、音高。这些物理量人各不同,因而语音在声纹图谱上呈现不同的声纹特征,根据这些声纹特征参数,我们不但可以区分语声,而且可以认定同一人的语声。2、语音的稳定性。一个人的发音器官发育成熟后,其解剖结构和生理状态是稳定不变的,加之发音人的言语习惯等语音的社会心理属性,使得每个人在不同时段所说的相同文本内容的话,基本语音特征是稳定不变的。因此,你可以把人的声道看做管乐中的号,长号、短号虽然都是号,但由于声道的形状、长短不同,吹出来的音质也不同。 目前的声纹鉴定方法,简单讲分为两种:一是目前我国司法实践中普遍应用的"人工鉴定"——专家鉴定人依靠语音学方法,二是未来发展方向的"自动鉴定"——计算机通过算法来模拟人耳对声学特征的提取、训练、对比来实现。
变声器是通过改变输入音频的音色、音调,并将变声后的音频输出的工具(百度百科)。其实还有声音快慢,百度百科说漏了,另外声音大小就不需说了,不用变声器也能改变。那么语音四要素中的音质(就是音色)、音调(对应音高)、音强(就是声音大小)、音长(对应声音快慢)都改变了,语音的物理属性已经改变,怎么鉴定呢?
1、不要把“变声器”想得那么高深 在鉴定上,“变声器”不就是个信道吗?信道的定义是信号传输的通道,我们的鉴定名叫声纹鉴定,其实分析检验的不是真正意义上人的语音,而是人的录音——语音信号,各种录音器材都可以看成信道,各种编码方式也可以看成信道,它们都对语音信号进行了改变。举个例子:对讲机、电话,都看以看成信道,你的声音经过对讲机传输,你听感上已经失真,你已经感受到了信道对语音信号的影响。目前市面上的“变声器”,无论是硬件的还是软件的,主要是改变基频,把低沉的声音(男声)变成了尖细的声音(女声、童声)。(关于改变音色这一点,一方面,音色肯定是改变了,经过了重采样及基频的改变,反映音色的共振峰特征肯定有变化。另一方面,其共振峰的变化是整体改变的,其中的相对关系可以看做不变)当然准确的讲,只是我们听感及社会认识中的所谓男声、女声、童声、老年人声。声音不是性特征,不能区分男女,只是统计学上区分。反例就是“郑海霞”这样身材高大——声带厚长(正相关)的语音,网上搜来听听,你感觉是男是女?另外,动画片中柯南用变声器神奇的将其变成毛利小五郎,现实中做不到这么精确,达不到这么好的效果,效果这么好的即时变声器,单从理论上讲,需搜集海量的毛利小五郎的声学数据才能实现。
2、“变声器”改变了语音的物理属性,并非改变了所有鉴定意义上的声学特征 前文所述目前普遍采用的人工通过语音学鉴定方法,其主要的优点就在能区分出计算机难以认知的“高级声纹特征”,如:方言口音、习惯用语、赘语、言语缺陷、韵律特征。这怎么“高级”呢?我们熟人间分辨一个人的语音,首先就是通过这些特征;模仿秀模仿时也非常注重这类特征。但是计算机难以认识,称为“高级特征”。没错,人耳才是最精密的声纹鉴定仪器。而非专业人士所不熟悉的“低级声纹特征”,如:共振峰、基频,却是计算机最“熟悉”的,乃至音强、音长、VOT等都是计算机能认识的。