- 1、本文档共18页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
应用HTK建立连续语音识别系统
王风娜
基本内容
知识回顾
HTK工具包
基于HMM的连续语音识别
应用HTK建立连续语音识别系统实例
知识回顾
HTK工具包
数据准备工具
HDMan、HCopy、HLEd、HSGen、HBuild、HLStats 、HParse
模型训练及优化工具
HERest、HInit、HRest、HHEd、HCompV
识别工具
HVite
性能评估工具
HResults、HRec
基于HMM的连续语音识别系统
HMM
三个基本问题:推理、学习、识别
模型初始状态
转移矩阵
{ ,λ, }πA B
状态产生观测向
量的概率分布
连续语音识别
模型结构:混合HMM(见附)
建模单元:可根据实际问题选择,对于大词汇量选择音素,进而扩展到三音素(词内或词间)
三音素捆绑:解决训练数据不足问题
基于数据的状态聚类:自底向上,不能给不可见音素建模(欧氏距离)
基于决策树的聚类:自顶向下,能为不可见音素建模(见附)
嵌入式训练:训练语音必须有对应的抄本文件
嵌入式识别:
* p(w)p(O|w)
wargmax ( p| w) Oargmax
w w p(O)
识别网络及N-gram语言模型
识别结果评估:
N D S − −
Correct 100×%
N
N D S I − − −
Accuracy 100×%
N
应用HTK建立连续语音识别的实例
数据准备
创建模型及学习
单音素模型
三音素模型
状态捆绑
增加高斯混合模型的个数
识别及评估
数据准备
训练及待识别语音文件(.wav)
训练语音包含的所有词(wlist )
训练语音的词级标注文件(.lab 或word.mlf )
wlist 中词的发音词典dict(见附)
HDMan -m -w wlist -n monophones1 -l dlog dict beep names
训练语音的音素级标注文件(.lab 或phones.mlf)
HLEd .led 生成音素序列文件phones0 (不包含sp )、phones1 (包含sp )
训练语音的特征文件(.mfc、.plp等)
HCopy config
训练语音词级网络wdnet(见附)
HPRase HBuild HParse
创建模型及学习(逐步细化)
1、单音素模型:
Proto文件:定义模型拓扑结构
3-state left-right
HCompV:统计训练数据全局均值、方差
HCompV -C conf
您可能关注的文档
最近下载
- 中华医学会重症医学专科资质培训班培训教材.pdf VIP
- 7200MA东元变频器说明书.docx
- 2023中考语文名著阅读指导+真题模拟题练习 专题08《傅雷家书》(学生版+解析版).pdf VIP
- 中考语文名著阅读指导+真题模拟题练习 专题14《格列佛游记》(学生版+解析版).doc
- 中考语文名著阅读指导+真题模拟题练习 专题13《红岩》(学生版+解析版).doc
- 中考语文名著阅读指导+真题模拟题练习 专题09《钢铁是怎样炼成的》(学生版+解析版)-.doc
- 儿童意外伤害和家庭急救措施.ppt
- 中考语文名著阅读指导+真题模拟题练习 专题05《海底两万里》(学生版+解析版).doc
- 中考语文名著阅读指导+真题模拟题练习 专题04 《骆驼祥子》(学生版+解析版).doc
- 中考语文名著阅读指导+真题模拟题练习 专题07《昆虫记》(学生版+解析版).doc
文档评论(0)