
matlab语音处理时进行分帧,怎么确定给出帧长和帧移的量,wlen=?, inc=? 10
1个回答
展开全部
一般时域分帧10-30ms(这是我在中科院一本《说话人识别的书》上看到的数据),根据你的采样率就可以确定wlen的长度,inc一般取wlen的20%-30%左右,基于短时平稳特性具体我没有查到量化资料,看别人工程猜测的。
端点检测的方法很多,一般常用短时能量和短时过零率检测, 确定汉语音节,都是以帧为单位,具体是设定阈值,查找起止,不过这种方法对信噪比要求稍高,我最近正在做,感觉效果不是很好,具体的方法你可以查宋知用老师的一本书,《matlab在语音信号分析与合成中的应用》,写得非常,非常,非常,非常好!!!!!!!!!!!!!!!!
宋老师是国内语音分析最早的研究人员,从事40余年,致敬!
他在matlab论坛的回复:(原话复制,就忽略我说的。。。。)
”请LZ细看一下该书的第二章。不论用哪一种方法都要对帧长wlen和帧移inc进行赋值。书中处理语音信号,语音信号是一种准周期性的信号,一般认为语音在10-30ms之内是稳态的,所以取帧长也在10-30ms之内,有取20ms,也有取30或40ms。而帧移常取5-15ms之间。“
端点检测的方法很多,一般常用短时能量和短时过零率检测, 确定汉语音节,都是以帧为单位,具体是设定阈值,查找起止,不过这种方法对信噪比要求稍高,我最近正在做,感觉效果不是很好,具体的方法你可以查宋知用老师的一本书,《matlab在语音信号分析与合成中的应用》,写得非常,非常,非常,非常好!!!!!!!!!!!!!!!!
宋老师是国内语音分析最早的研究人员,从事40余年,致敬!
他在matlab论坛的回复:(原话复制,就忽略我说的。。。。)
”请LZ细看一下该书的第二章。不论用哪一种方法都要对帧长wlen和帧移inc进行赋值。书中处理语音信号,语音信号是一种准周期性的信号,一般认为语音在10-30ms之内是稳态的,所以取帧长也在10-30ms之内,有取20ms,也有取30或40ms。而帧移常取5-15ms之间。“

2023-08-15 广告
通常情况下,我们会按照结构模型把系统产生的数据分为三种类型:结构化数据、半结构化数据和非结构化数据。结构化数据,即行数据,是存储在数据库里,可以用二维表结构来逻辑表达实现的数据。最常见的就是数字数据和文本数据,它们可以某种标准格式存在于文件...
点击进入详情页
本回答由光点科技提供
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询