基于片上系统SoC的孤立词语音识别算法设计.doc.docVIP

下载本文档

6
0
约6.82千字
约 9页
2015-08-10 发布于湖北
举报
版权申诉

基于片上系统SoC的孤立词语音识别算法设计.doc.doc

1、本文档共9页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于片上系统SoC的孤立词语音识别算法设计.doc.doc

基于片上系统SoC的孤立词语音识别算法设计发布日期:2008-01-30　作者:刘胜洋宋志勇来源:微计算机信息摘要：本文首先介绍了研究的孤立词语音识别系统，并针对片上系统进行了语音识别算法的选择。然后对基于语音帧的端点检测算法、线性预测编码倒谱系数LPCC算法和动态时间规整DTW算法进行了详细的分析和设计。对于新型语音识别SoC芯片的开发研制和推动片上可编程系统（SOPC）的研究与发展具有一定的理论和实践意义。关键词:?片上系统；语音识别；端点检测；LPCC；DTW 1. 引言目前，嵌入式语音识别系统的实现主要通过单片机MCU和数字信号处理器DSP来实现[1]。但是单片机运算速度慢，处理能力不高；虽然DSP处理速度很快，但是产品的成本很高，电源能量消耗也很大。因此，为了满足嵌入式交互系统的体积越来越小、功能越来越强的苛刻需求，语音识别片上系统SoC（System on Chip）应运而生。语音识别片上系统SoC本身就是一块芯片，在单一芯片上集成了模拟语音模数转换器ADC、数模转换器DAC、信号采集和转换、处理器、存储器和I/O接口等，只要加上极少的电源就可以具有语音识别的功能，集成了声音信息的采集、取样、处理、分析和记忆。SoC具有片内处理器和片内总线，有着更灵活的应用方式。它具有速度快，体积小，成本低，可扩展性强等优点，有着广泛的应用前景，已经成为语音识别技术应用发展的一个重要方向[2-3]。研究和开发应用于片上系统SoC芯片的语音识别算法有着非常重要的意义。 2. 孤立词语音识别系统孤立词语音识别系统应用于嵌入式控制领域，例如数字家庭控制、车载语音控制和智能语音可控玩具等。在训练阶段，用户将每一个词依次说一遍，并将计算得到的每一个词所对应的特征矢量序列作为模板存入模板库中。在识别阶段，将输入语音的特征矢量序列依次与模板库中的每一模板进行相似度比较，将相似度最高者作为识别结果输出。 3. 针对片上系统SOC的孤立词语音识别算法设计在SoC芯片中实现孤立词语音识别系统，就要根据语音识别片上系统的特点，来进行SoC的语音识别算法的选择和设计。首先是特征提取算法的选择。MFCC算法考虑到了人的听觉效果，能很好的表征语音信号，而且在噪声环境下能取得很好的识别效果。而LPC系数主要是模拟人的发声模型，对元音有较好的的描述能力，对辅音描述能力较差，抗噪声性能也相对差一些。但是从算法的计算量来考虑，MFCC提取特征参数是LPCC的10倍左右，通常在嵌入式系统下较难实现实时性。因此，选用LPCC算法。模式匹配技术的选择。隐马尔柯夫模型HMM方法是用概率及统计学理论来对语音信号进行分析与处理的，适用于大词汇量、非特定人的语音识别系统。该算法对系统资源的要求较多。而动态时间规整技术DTW采用模板匹配法进行相似度计算，是一个最为小巧的语音识别算法，系统开销小，识别速度快，可有效节约系统资源，降低系统成本开支。由于嵌入式系统资源有限，语音命令识别系统所需要的词汇量有限，所需识别的语音都是简短的命令，模式匹配算法选择DTW。 3.1 端点检测算法设计一个好的端点检测算法可以在一定程度上提高系统的识别率。在双门限端点检测原理的基础上，进行语音端点检测算法的设计。为了提高端点检测的精度，采用短时能量E和短时过零率ZCR。语音采样频率为8KHz，量化精度为16位，数字PCM码首先经过预加重滤波器H(z)=2-0.95z-1，再进行分帧和加窗处理，每帧30ms，240点为一帧，帧移为80，窗函数采用Hamming窗。然后对每帧语音进行归一化处理，即把每点的值都除以所有语音帧中数值绝对值的最大值，把值的范围从[-32767，32767]转换到[-1，1]。在实验中发现，双门限端点检测算法对于两个汉字和三个汉字的语音命令端点检测效果不好。以语音“开灯”为例，如图1所示语音波形图中，端点检测只能检测到第一个字。图1 ?改进前对语音“开灯”的端点检测 Fig2. the endpointing detection of speech “kaideng” before ameliorate ? 如果语音命令中两个字的间隔过长，使用双门限端点检测方法会发生只检测到第一个字的情况，在实际中“开灯”和“开门”等命令只提取了“开”字的语音，从而可能造成语音匹配的错误。为避免该错误，采用的办法是，把可容忍的静音区间扩大到15帧 (约150ms)。在双门限的后一门限往后推迟15帧，如15帧内一直没有energy和ZCR超过最低门限，则认为语音结束；如发现仍然有语音，则继续算入在内。图2 改进后对语音“开灯”的端点检测 Fig3. the endpointing detection of speech “kaideng” a