- 1、本文档共12页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于词网模型的连续语音识别系统MYASR的设计与开.doc
基于词网模型的连续语音识别系统MYASR的设计与开
摘 要:基于词网模型的连续语音识别系统在各方面得到了广泛应用,如语音拨号、语音指令、语音菜单、语音导航及语音电话簿等。本文在研究语音识别理论的基础上,设计并开发了基于词网模型的连续语音识别系统-MYASR。MYASR提供了丰富的功能模块,包括前端处理、特征提取、模型训练、词网构建、识别等,使开发一个基于词网模型的连续语音识别应用系统更加方便,同时也是语音识别研究的实验平台。MYASR所采用的XML描述文件,使系统具有良好的可读性和可扩展性。通过在TIMIT语料库上单音子连续语音识别的实验显示,MYASR具有很高的识别性能和实时性能。
关键词:语音识别;MYASR系统;XML语言
1.引言
在小词汇量的语音识别系统中,主要分为孤立词识别和基于词网模型的连续语音识别。前者通过词发音端点分割算法,把每个词的发音从整段语音中分割出来,然后再到模型集中去寻找最佳的匹配作为识别结果。XML同HTML一样,都来自SGML(标准通用标记语言)。SGML是一种在Web发明之前就早已存在的用标记来描述文档资料的通用语言。但SGML十分庞大且难于学习和使用。鉴于此,人们提出了XML 语言,它具有可扩展性、灵活性、自描述性、简明性的优点。
在MYASR系统中有多个功能模块,每个功能模块都有各自的参数,采用XML语言对这些参数进行描述更加直观,可读性更强。例如,MYASR中MFCC编码的XML描述如下:
lt;mfcc_paramsgt;
lt;type_maskgt; MFCC_0_D_A lt;/type_maskgt;
lt;sample_rategt; 16000 lt;/sample_rategt;
lt;win_sizegt; 400 lt;/win_sizegt;
lt;win_shiftgt; 160 lt;/win_shiftgt;
lt;fft_sizegt; 512 lt;/fft_sizegt;
lt;low_freqgt; 200 lt;/low_freqgt;
lt;high_freqgt; 7000 lt;/high_freqgt;
lt;pre_enphasisgt; 0.97 lt;/pre_enphasisgt;
lt;mel_numgt; 26 lt;/mel_numgt;
lt;cep_numgt; 12 lt;/cep_numgt;
lt;cep_liftergt; 10 lt;/cep_liftergt;
lt;/mfcc_paramsgt;
MYASR通过XML解析器将XML元素中的参数提取出来,然后再传递给各个功能模块。当需要增加参数时,只要在XML文件中适当位置增加一个元素(Element)即可,具有良好的可扩展性。
3.系统开发
MYASR系统的模块结构如下所示:
3.1前端处理
MYASR的前端处理包括以下功能模块:自动增益控制(AGC)、噪音消除、预加重处理。其相应的XML描述如下:
lt;preprocess_bat workdir=“d:worktmp”gt;
lt;paramsgt;
lt;frame_tsgt; 20 lt;/frame_tsgt; //帧长
lt;agcgt;
lt;levelgt; 0.5 lt;/levelgt;
lt;max_gaingt;2.0lt;/max_gaingt; //最大增幅
lt;min_gaingt;1.0 lt;/min_gaingt; //最小增幅
lt;agcgt;
lt;pre_enphasisgt; 0.97 lt;/pre_enphasisgt;//预加重系数
lt;denoisegt;1lt;/denoisegt; //噪音消除
lt;/paramsgt;
lt;transcripgt; pretrans.scp lt;/transcripgt;
lt;/preprocess_batgt;
其中属性”workdir”表示当前的工作目录,元素lt;agcgt;表示自动增益控制参数,元素lt;pre_enphasisgt;表示预加重参数,元素lt;denoisegt;表示是否对语音进行噪音消除。元素lt;transcripgt;表示批处理文件,此文件中描述了目标文件名及处理后的文件名,内容如下:
”speech1.wav” “speech1_dn.wav”
”speech2.wav” “speech2_dn.wav”
”speech3.wav” “speech3_dn.wav”
.........
3.2端点分割
在MYASR系统中,实现两种类型的端点
文档评论(0)