语音识别芯片的语音识别系统设计
对于嵌入式系统而言,语音识别硬件组成要考虑很多其它因素,首先由于成本的限制,一般使用定点DSP,这意味着算法的复杂度受到限制;其次,对产品化有各种严格的限制,这就需要一个高度集成的硬件DSP,因此最理想的硬件组成是系统级的芯片。
一般采用的是一个16位结构的微控制器,将MCU、A/D、D/A、RAM、ROM集成在一块芯片上,具有很高的集成度。同时具有较高运算速度的16×16位的乘法语音和内积运算指令,CPU最高可达时钟49MHz,因此在复杂的数字信号处理方面既非常便利又比专用的DSP芯片便宜得多。并具有12位ADC,和14位DAC保证音频精度,配置带自动增益控制(AGC)的麦克风输入方式,为语音处理带来了极大的方便。既具有体积小、集成度高、可靠性好的特点,又具有较强的中断处理能力、高性能的价格比和功能强、效率高的指令系统及低功耗、低电压的特点,所以非常适合用于嵌入式语音识别系统。
以SR160X为核心的嵌入式语音识别系统硬件的电路系统,主要包括麦克风输入电路、ADC、DAC、功放输出电路、键盘电路和各种通信电路等,语音保存到SPI Flash存储器中。 非特定人语音识别要经过语音训练后才能识别,将语音训练过程中建立的参考模式库和从待识别语音信号中提取的特征参数都存放在外扩的SPI Flash中,这样就可以保证掉电后重新开机继续识别。语音识别系统软件主程序由语音训练程序、语音识别程序、语音播放程序、中断程序、初始化程序等子程序组成。由于嵌入式平台存储资源少、实时性要求高的特点,因此算法在保证识别效果的前提下要尽可能优化。
软件包括A/D变换、预加重、分帧和加窗、端点检测、特征参数提取、放宽端点限制的DTW算法,最后识别结果输出。
在应用层软件考虑到用户的实际需求,增加了能快速开发的虚拟软件开发技术,能快速完成产品。
NRK10语音识别芯片为广州九芯电子自主研发的一款高性能、低成本的离线语音识别芯片,具有语音识别及播报功能,需要外挂 SPI-Flash,存储词条或者语音播内容。他具有识别率高,工业级性能、简单易用,更新词条方便等优势。广泛应用在智能家居、AI人工智能、玩具等多种领域。
产品特征:
• 工作电压:3.3V~5.5V,一般为 4.2V
• 休眠电流:<7uA
• 未休眠待机电流:25~50mA
• 唤醒方式:休眠后可以从任何GPIO、RTC、或WDT中断来唤醒,使其进入待机状态;待机状态下通过唤醒词或者词条来进入工作状态。
• 固定词条,非特定人识别
• 可识别 20个词条(每个词条建议三字或以上),总字数在50~60字之间。
• 识别环境:安静无回声.
• 识别效果:安静无回声环境,2 米内识别率可达 90%及以上,最远距离可以达到5米.
• 识别语种:可识别 32 种语种,如英语,中文,日语,粤语等等(不可同时识别多种语种,即一个模块无法同时识别中文,英文,日语).
• PWM输出,可直接驱动8欧0.5W喇叭;DAC输出,可外接功放。
• 音频输出的内容需要放置在外挂的SPI_Flash中。.
• 低电压复位:低于1.6V芯片进行复位
• 内置低压差稳压器(LDO) -可在3.3V提供25ma负载电流 -可配置的输出电压:8个选项1.5v/1.7v/1.8v/2.4v/2.5v/2.7v/3v/3.3v,默认 为3.3V。
• 工作温度:-10°C~+70°C.
• 芯片程序与词条存储方式是OTP存储方式,• 一次性烧录,都存在主控芯片里面,方便试样与量产。播报的语音存储在外挂SPI FLASH。支持8M/16M/32Mbit SPI FLASH。
• 内置UART串口,方便单片机控制与通信.
• 内置MIC 2级偏压放大电路,以及自置AGC增益控制,以及率噪电路。
• 封装形式有LQFP32、COB.