语音识别的内容是什么?当前语音识别的主流方法是什么?

1个回答
展开全部
摘要 您好,很高兴为您服务,语音识别本质上是一种模式识别的过程,未知语音的模式与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果。
当今语音识别技术的主流算法,主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等语音识别方法。
一 . 语音识别分类:
根据对说话人的依赖程度 :
1)特定人语音识别(SD):只能辨认特定使用者的语音,训练→使用。
2) 非特定人语音识别(SI):可辨认任何人的语音,无须训练。
根据对说话方式的要求 :
1)孤立词识别:每次只能识别单个词汇。
2)连续语音识别:用者以正常语速说话,即可识别其中的语句。
二. 语音识别系统的基本流程
(1)预处理模块:
对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声,
语音信号的端点检测(找出语音信号的始末)、
语音分帧(近似认为在10-30ms内是语音信号是短时平稳的,将语音信号分割为一段一段进行分析)
预加重(提升高频部分)等处理
(2)特征提取:
去除语音信号中对于语音识别无用的冗余信息,保留能够反映语音本质特征的信息,并用一定的形式表示出来。
目前的较常用的提取特征的方法还是比较多的,不过这些提取方法都是由频谱衍生出来的。
梅尔频率倒谱系数(MFCC)参数因其良好的抗噪性和鲁棒性而应用广泛。MFCC 的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数。
CMUsphinx中也是用MFCC特征的,用帧frames去分割语音波形,每帧大概10ms,然后每帧提取可以代表该帧语音的39个数字,这39个数字也就是该帧语音的MFCC特征,用特征向量来表示。
(3)声学模型训练:
根据训练语音库的特征参数训练出声学模型参数。在识别时可以将待识别的语音的特征参数同声学模型进行匹配,得到识别结果
咨询记录 · 回答于2022-05-31
语音识别的内容是什么?当前语音识别的主流方法是什么?
您好,很高兴为您服务,语音识别本质上是一种模式识别的过程,未知语音的模式与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果。 当今语音识别技术的主流算法,主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等语音识别方法。一 . 语音识别分类:根据对说话人的依赖程度 : 1)特定人语音识别(SD):只能辨认特定使用者的语音,训练→使用。 2) 非特定人语音识别(SI):可辨认任何人的语音,无须训练。根据对说话方式的要求 : 1)孤立词识别:每次只能识别单个词汇。 2)连续语音识别:用者以正常语速说话,即可识别其中的语句。二. 语音识别系统的基本流程(1)预处理模块: 对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声, 语音信号的端点检测(找出语音信号的始末)、 语音分帧(近似认为在10-30ms内是语音信号是短时平稳的,将语音信号分割为一段一段进行分析) 预加重(提升高频部分)等处理(2)特征提取: 去除语音信号中对于语音识别无用的冗余信息,保留能够反映语音本质特征的信息,并用一定的形式表示出来。 目前的较常用的提取特征的方法还是比较多的,不过这些提取方法都是由频谱衍生出来的。 梅尔频率倒谱系数(MFCC)参数因其良好的抗噪性和鲁棒性而应用广泛。MFCC 的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数。 CMUsphinx中也是用MFCC特征的,用帧frames去分割语音波形,每帧大概10ms,然后每帧提取可以代表该帧语音的39个数字,这39个数字也就是该帧语音的MFCC特征,用特征向量来表示。(3)声学模型训练: 根据训练语音库的特征参数训练出声学模型参数。在识别时可以将待识别的语音的特征参数同声学模型进行匹配,得到识别结果
还能问一题嘛
亲 您有什么问题 的话 可以问的
举例说明基于语音生成模型的两类编码方法的工作原理及特点。
4.1 波形编码算法基本原理语音编码主要有波形编码和参数编码两大类。波形编码就是根据语音信号波形导出相应的数字编码形式。最早的波形编码就是PCM,即ITU-T G.711A和ITU-T G.711μ,其编码速率为64kbit/s。PCM虽然能够提供相当好的语音质量,但要占用过高的网络带宽资源。这里主要讨论低速率的波形编码算法,是利用了连续语音之间的相关性,主要采用的技术为自适应量化器和自适应预测器。为了获得仅可能大的量化信噪比,应该对小信号采用小的量化步长,对大信号采用较大的量化步长。使量化器范围与输入信号的动态范围相匹配,减小量化噪声。这就是自适应量化技术。自适应量化分为两类:前向自适应量化和后向自适应量化,目前常用的是后向自适应量化。自适应预测的基本原理是根据语音波形的时间相关性确定预测系数,使差分信号的方差为最小,时间相关性则以自相关函数来度量,如图9所示。4.2 参数编码算法基本原理语音的种类主要有两种:浊音和清音。声带周期性地打开和关闭产生固定频率的声音,这个频率就是浊音的音调;音调频率男性为50~250Hz,女性为100~500Hz;考虑到音频等声音频率范围,一般是0.3kHz~3.4kHz,因此8kHz的采样频率满足采样定理。从频域上来看,幅频频谱的包洛有几个明显的局部最大值,称为共振峰,频谱的精细结构呈现周期性。清音的频谱没有周期性,峰值的分布也没有明显的规律,整个频谱相对比较平坦,类似于白噪声,因而几乎不可预测。参数编码器又称为声码器(Vocoder),它的原理和设计思想跟波形编码完全不同。参数编码根据对声音形成机理的分析,构造语音生成模型(如图10),该模型以一定精度模拟发话者的发声声道;接收端根据该模型还原生成发话者的因素。由于话音信号变化是缓慢的,模型参数的更新频度较低,可以有效地降低编码比特率。因此参数编码在移动通信、VoIP系统等领域得以广泛应用。 参数编码器主要可分为三类:通道式、共振峰式和线性预测编码(LPC:Linear Predictive Coding)方式。其中线性预测编码方式的性能优异,目前低比特率语音编码器都采用这种技术。4.3 编码算法综述及其属性和性能评估在VoIP系统中,为了充分地利用网络带宽
基于小波的语音增强原理是什么,小波域的阙值如何选取
小波变换是近10年来迅速发展起来的一种时频局部分析方法,它克服了短时傅里叶变换固定分辨率的缺点,能够将信号在多尺度多分辨率上进行小波分解,各尺度上分解得到的小波系数代表信号在不同分辨率上的信息。同时小波变换与人耳的听觉特性非常相似,便于研究者利用人耳的听觉特性,是分析语音这种非平稳信号的有力工具,所以近年来很多研究者都利用小波变换来处理语音信号。小波变换法去噪的原理是:语音信号的能量集中在低频段,而噪声能量则主要集中在高频段,这样就可将噪声小波系数占主要成分的那些尺度上的噪声小波分量置零或给予很小的权重,然后用处理后的小波系数重构恢复信号。同时,随着小波变换理论的发展,小波变换去噪不断丰富,并且取得了良好的效果,如1992年Mallat提出了利用小波变换模极大值去噪,Donobo在1995年提出了非线性小波变换阈值去噪,这种方法使得小波去噪得到广乏运用,吸引了众多的研究者。
下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消