语音信号预处理
如果特征提取用的MFCC,里面有预加重、滤波预处理里面还要不要再做?我只知道预处理有采样量化、A/D转换、滤波、预加重、端点检测,不清楚MFCC,但我看MFCC里面有,所...
如果特征提取用的MFCC,里面有预加重、滤波
预处理里面还要不要再做?
我只知道预处理有采样量化、A/D转换、滤波、预加重、端点检测,不清楚MFCC,但我看MFCC里面有,所以我不懂还做不做。
有高手能讲一下原理就更好。
3Q先。。 展开
预处理里面还要不要再做?
我只知道预处理有采样量化、A/D转换、滤波、预加重、端点检测,不清楚MFCC,但我看MFCC里面有,所以我不懂还做不做。
有高手能讲一下原理就更好。
3Q先。。 展开
展开全部
MFCC是计算语音信号的Mel频率倒谱系数,Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征,MFCC已经广泛地应用在语音识别领域。由于Mel频率与Hz频率之间非线性的对应关系,使得MFCC随着频率的提高,其计算精度随之下降。因此,在应用中常常只使用低频MFCC,而丢弃中高频MFCC。
MFCC参数的提取包括以下几个步骤:
预滤波(低通):前端带宽为300-3400Hz的抗混叠滤波器。
A/D变换:采样频率,线性量化精度。
预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响。
分帧:根据语音的短时平稳特性,语音可以以帧为单位进行处理,实验中选取的语音帧长为32ms,帧叠为16ms。
加窗:采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响。
快速傅立叶变换(Fast Fourier Transformation, FFT):将时域信号变换成为信号的功率谱。
三角窗滤波:用一组Mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器),对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应。
求对数:三角窗滤波器组的输出求取对数,可以得到近似于同态变换的结果。
离散余弦变换(Discrete Cosine Transformation, DCT):去除各维信号之间的相关性,将信号映射到低维空间。
谱加权:由于倒谱的低阶参数易受说话人特性、信道特性等的影响,而高阶参数的分辨能力比较低,所以需要进行谱加权,抑制其低阶和高阶参数。
倒谱均值减(Cepstrum Mean Subtraction, CMS):CMS可以有效地减小语音输入信道对特征参数的影响。
差分参数:大量实验表明,在语音特征中加入表征语音动态特性的差分参数,能够提高系统的识别性能。可用到了MFCC参数的一阶差分参数和二阶差分参数。
采样前的低通滤波,主要是消除采样时的频谱混叠。由硬件完成。
预加重主要是提高高频的频谱分量。软件,硬件都可以完成。
预加重前,也可以用高通滤波器,消除低频噪音。
如果计算mfcc是有了预加重。之前的预加重就不要做。
采样前的硬件低通滤波是一定要做的。
计算mfcc时的滤波,看起的作用是什么?如果是进一步消除噪音,那就必须做。
MFCC参数的提取包括以下几个步骤:
预滤波(低通):前端带宽为300-3400Hz的抗混叠滤波器。
A/D变换:采样频率,线性量化精度。
预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响。
分帧:根据语音的短时平稳特性,语音可以以帧为单位进行处理,实验中选取的语音帧长为32ms,帧叠为16ms。
加窗:采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响。
快速傅立叶变换(Fast Fourier Transformation, FFT):将时域信号变换成为信号的功率谱。
三角窗滤波:用一组Mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器),对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应。
求对数:三角窗滤波器组的输出求取对数,可以得到近似于同态变换的结果。
离散余弦变换(Discrete Cosine Transformation, DCT):去除各维信号之间的相关性,将信号映射到低维空间。
谱加权:由于倒谱的低阶参数易受说话人特性、信道特性等的影响,而高阶参数的分辨能力比较低,所以需要进行谱加权,抑制其低阶和高阶参数。
倒谱均值减(Cepstrum Mean Subtraction, CMS):CMS可以有效地减小语音输入信道对特征参数的影响。
差分参数:大量实验表明,在语音特征中加入表征语音动态特性的差分参数,能够提高系统的识别性能。可用到了MFCC参数的一阶差分参数和二阶差分参数。
采样前的低通滤波,主要是消除采样时的频谱混叠。由硬件完成。
预加重主要是提高高频的频谱分量。软件,硬件都可以完成。
预加重前,也可以用高通滤波器,消除低频噪音。
如果计算mfcc是有了预加重。之前的预加重就不要做。
采样前的硬件低通滤波是一定要做的。
计算mfcc时的滤波,看起的作用是什么?如果是进一步消除噪音,那就必须做。
唯创智能
2024-05-10 广告
2024-05-10 广告
语音芯片根据集成电路类型来分,凡是与声音有关系的集成电路被统称为语音芯片(又称语音IC,这里应该叫成Voice IC),但是在语音芯片的大类型中,又被分为语音IC(这里应该叫成Speech IC),音乐IC(这里应该叫成Music IC)两...
点击进入详情页
本回答由唯创智能提供
展开全部
针对你的问题:
一、如果你确定你用的特征提取里有预处理的过程那就不需要再做了。
二、纠正下,数字化和预处理是两个过程。
原理:
1、欲滤波:就是要抑制工频干扰;接下来进行采样;
2、A/D转换就是《数字信号处理》中量化,会带来量化误差;(简单的部分掠过)
3、端点检测。从静音部分把噪音剔除,把需要的语音部分提取出来。这部分是
关键,直接影响系统的成败。端点检测的算法有很多,基于相关性的,基于短时
能量的,过零率的,最近我看到还有排列熵的。等等
4、你要做语音是针对说话人,还要预加重:因为人说话时唇端辐射使高频能量
丢失,预加重可以提升高频部分,使信号频谱变得平坦,利于分析。
5、分帧加窗也容易:matlab一句话的事,viocebox里的enframe函数。(如果你
自己写程序:一般加汉明窗。如果学过《数字信号》你就应该知道,汉明的主瓣
宽,而外带衰减快,可以减小语音帧的截断效应。)
6、mfcc:变换到mel频度来模拟人耳听觉特性。套话就不说了,你也知道目前用
在语音处理最合适。程序网上也有很多,我想说的是现在有很多改进的mfcc,你
可以找那些程序来改善你系统的性能。
另外,我这有viocebox工具箱,如果你需要,给我你的邮箱。
一、如果你确定你用的特征提取里有预处理的过程那就不需要再做了。
二、纠正下,数字化和预处理是两个过程。
原理:
1、欲滤波:就是要抑制工频干扰;接下来进行采样;
2、A/D转换就是《数字信号处理》中量化,会带来量化误差;(简单的部分掠过)
3、端点检测。从静音部分把噪音剔除,把需要的语音部分提取出来。这部分是
关键,直接影响系统的成败。端点检测的算法有很多,基于相关性的,基于短时
能量的,过零率的,最近我看到还有排列熵的。等等
4、你要做语音是针对说话人,还要预加重:因为人说话时唇端辐射使高频能量
丢失,预加重可以提升高频部分,使信号频谱变得平坦,利于分析。
5、分帧加窗也容易:matlab一句话的事,viocebox里的enframe函数。(如果你
自己写程序:一般加汉明窗。如果学过《数字信号》你就应该知道,汉明的主瓣
宽,而外带衰减快,可以减小语音帧的截断效应。)
6、mfcc:变换到mel频度来模拟人耳听觉特性。套话就不说了,你也知道目前用
在语音处理最合适。程序网上也有很多,我想说的是现在有很多改进的mfcc,你
可以找那些程序来改善你系统的性能。
另外,我这有viocebox工具箱,如果你需要,给我你的邮箱。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
MFCC是计算语音信号的Mel频率倒谱系数,Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征,MFCC已经广泛地应用在语音识别领域。由于Mel频率与Hz频率之间非线性的对应关系,使得MFCC随着频率的提高,其计算精度随之下降。因此,在应用中常常只使用低频MFCC,而丢弃中高频MFCC。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询