如何解决语音识别中的口音问题?
相信许多人都使用过语音识别产品,Siri、微信语音、度秘和手机自带的语音助手,这些产品正越来越深入我们的生活。除了不能识别我们的语气,有时不知道是不是我们讲的普通话不标准,对于很简单的话,这些语音助手经常答非所问。
最近,我所服务的单位正在试用一套语音识别系统,阿里巴巴旗下的,识别率只有80%左右。和工程师沟通过后,得出最可能的原因有2个:1、使用频次太少,导致系统无法积累足够的数据,没有办法有效自主学习;2、口音问题,试用者的普通话夹带了大量的地方特色口音,让系统难以识别。
目前许多语音识别软件或者系统都是基于标准的发音来识别的,内嵌的可能是有限的几种语言或者方言,对于原来没有的语种,还得通过海量的数据去训练软件才能提高识别率。人们说话千差万别,口音各不相同,而且各个地方都有自己的方言,这对于语音识别来说是巨大的严峻的考验。如果对于年轻人而言尽量使用普通话就好,可是真正需要使用语音识别的人群年龄较大,他们多讲方言,口音也独有特色,也没有精力去重新学习一门语言了。
抛开云计算能力,语音识别的痛点或许还有两个:1、如果想要构建支持不同口音的语音识别系统,需要对各种语种语音进行大量的采集,这需要海量的设备采集海量的数据,再进行无限次的分析,即使是全球性科技巨头都不大可能做到这种程度;2、语音识别系统的分析能力,这可能要寄望于人工智能和深度学习了。
目前国内的科大讯飞、百度、腾讯、阿里巴巴,以及国外的谷歌、Facebook、亚马逊等等科技巨头都在研究、推广语音识别系统,随着大数据、人工智能和深度学习的发展,或许我们未来都会拥有一个电影钢铁侠里的贾维斯!如果我们想拥有可以情感交流的语音助手,而不是只能听清我们讲的字,更能听懂我们的语气和情感,这将又是另一个层次的问题了!