基于SoPC孤立词语音识别系统设计.docVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于SoPC的孤立词语音识别系统的设计 摘? 要: 采用SoPC方法,实现了基于动态时间规整(DTW)算法的孤立词语音识别系统,该系统可以作为电器系统的语音命令控制模块使用。考虑嵌入式系统的特点,对端点检测算法和模式匹配算法进行了选择和调整。实验表明,该语音识别系统运行速度和识别准确性能够适应语音控制的要求。SoPC设计方式灵活,适合对系统进行改进升级。 关键词: SoPC;Nios II;语音识别;动态时间规整 ??? 随着计算机技术、模式识别技术等的发展,国内外对语音识别的研究也不断进步。目前电器、家居智能化的实际需求使得语音识别技术成为一个研究热点。例如,美国约翰·霍普金斯大学语言和语音处理中心多年来一直致力于推动语言和语音识别的研究和教育,CLSP每年一度的夏季研讨会对语音识别的各个领域都产生了深远的影响。国内,中国科学院等也在语音识别领域有较大进展。 ?? ?相对于基于PC机平台的大词汇量语音识别系统,嵌入式系统中要求语音控制模块占用资源少,功能简洁,可作为独立的语音识别系统或其他系统的语音控制部分。因此,根据语音识别系统的准确性、实时性的要求和SoPC实现方式的特点,在介绍实现该语音识别系统的基本流程的基础上着重探讨以下两部分内容:(1)由于端点检测算法对识别的准确性影响较大,本系统探索适合SoPC设计的端点检测算法,从而使得系统的识别准确性有所改进;(2)模式匹配时,对同一模板采用了多个局部判决函数,求多个累加总距离的平均值作为最终的判决依据,进一步提高了识别结果的可靠性。 ?? ?可编程片上系统SoPC(System on Programmable Chip)是Altera公司提出的一种基于FPGA的嵌入式系统解决方法,采用软硬件结合设计的思想,实现方式简单灵活[1]。设计中采用高性价比的EP2C70 FPGA芯片。实验结果表明,系统运行良好,能够满足中、小词汇量孤立词语音识别系统的要求。 1 设计方案 ?? ?语音识别系统的逻辑流程如图1所示。采样得到的语音信号要经过预处理、端点检测、特征参数提取,然后根据用户指定的工作模式(识别模式或训练模式),进行模式匹配并输出识别结果,或者训练得到该词条的模板,并存入模板库。因此,在硬件资源允许的条件下,用户可以自定义训练模板,更新模板库,拓展系统的应用范围。 1.1 预加重和端点检测 ?? ?系统采用8 kHz采样,由音频编/解码芯片WM8731采样得到的语音数据,经过FIFO数据缓存器传输到系统的SDRAM中,然后对SDRAM中的数据进行后续处理。设定256个采样点作为一帧,每个孤立词采集100帧(3.2 s)数据。 ?? ?(1)预加重:处理的第一步要对采集到的数字语音信号进行预处理,主要是预加重。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中能用相同的信噪比求频谱。通过一个滤波器对信号进行滤波,滤波器的传递函数为: ?? ?H(z)=1-0.98z-1(1) ?? ?(2)端点检测:从数字语音信号中快速有效地切分出语音段,对于整个系统的识别速度和识别准确性影响较大。根据汉语语音的特点,一般一个汉语单词的开始部分是清音,接下来是浊音,清音较弱,浊音较强。因此在端点检测部分,采用了基于短时能量和短时过零率的双重检测。首先根据浊音粗判起始帧,然后根据清音,细判起始帧。语音的起始帧和终止帧都是经过粗判和细判之后得出,从而保证端点检测的准确性[2]。 ? 1.2 特征提取 ?? ?经过预加重和端点检测之后得到语音段采样值构成的向量序列。接下来对该向量序列进行特征参数分析,目的是提取合适的语音特征参数,使特征向量序列在语音识别时,类内距离尽量小,类间距离尽量大。特征参数的提取同样是语音识别的关键问题,特征参数的选择直接影响到语音识别的精度。结合SoPC设计的需求,选择提取语音信号的美尔特征参数(MFCC)[3]。MFCC能够较好地反映人耳的听觉特性。 ?? ?为求识别系统简洁,每词条固定采集3.2 s的语音信号,采样频率为8 kHz,经端点检测切分出语音段,然后将语音段进行分帧(每帧256个采样点),每帧提取一组14维的MFCC参数,组成一组特征参数向量序列,作为待识别语音段的特征参数。 1.3 模式匹配 ?? ?对于大词汇量的非特定人语音识别系统,模式匹配多采用基于模型参数的隐马尔可夫模型(HMM)的方法或基于非模型参数的矢量量化(VQ)的方法。但是HMM算法模型数据过大,对存储空间和处理速度的要求高,不适合嵌入式系统。VQ算法虽然训练和识别的时间较短,对内存要求也较小,但识别性能较差。因此考虑到嵌入式系统系统资源有限以及运算能力限制,而又需要保证识别准确性,决定采用基于动态时间规整的算法(DTW)进行模式匹配。 ?? ?由于每个人的发音习

文档评论(0)

天马行空 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档