- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
HADOOP 下声学模型训练工具原理和使用简介
研究院-数据中心
MLE训练工具完整移植了dtm下的EasyTraning流程
可以进行解lattice,解mfcc特征,解tandem特征等任务
可进行MPE训练
形成了简易的开发框架,可供后续方便地进行开发
HADOOP下声学模型训练工具现状
Hadoop与DTM训练对比
Hadoop与DTM训练对比
Hadoop与DTM训练对比
数据: DTM使用列表管理和使用数据,hadoop将所需要的数据打包在一起供程序流式读取使用,所以在解lattice等操作时,hadoop会额外地将输出的lattice和特征一起输出到打包文件中供之后的程序使用
任务:DTM和HADOOP类似,都采取了分布式的任务管理模式
Hadoop对比DTM的优势
结构化的顺序文件 VS 松散的小文件
数据一站式管理 VS 繁杂的数据分发
Hadoop集群的监控,运行任务的监控
9/ganglia 集群的运行状态监控
00:50030 hadoop集群的任务运行情况
00:50070 hadoop集群的文件系统监控
Hadoop下声学训练工具使用方法
1.所需要的打包程序在\\91\spyu\bin中,由于程序仍需要维护的关系,请直接使用其中的程序而不要拷贝出来。
2.运行打包脚本,使用dtm训练相同格式的scp文件进行打包,得到特征标注的大块文件。
3.将打包好的文件上传到hdfs上。
4.演示: (具体步骤见手册中)
数据打包
一个mapreduce任务为训练的一次迭代(相当于一次HERest迭代),或者数据的一次处理(修改标注)
通过脚本将多个任务串联起来,形成完整的训练流程,如Easytraining流程,MPE多步迭代流程等
HADOOP下声学模型训练工具形式
输入数据:特征和标注
其他输入:对应标注的syllable到phone的词典,初始模型生成的hhed编辑文件,用于聚类状态的问题集
训练过程:
打包数据
MLE的easytraining脚本运行,进行mle训练
见下一页
MLE训练
进行必要的设置:
easytraining\g_variable_hadoop.pm
运行EasyTraining脚本,即可完成完整的MLE训练
演示:
MLE训练-EasyTraining运行
查看log日志,例子:job_201206110901_0025 danliu
进行调试,例子:job_201206110901_0013 taoyu den lat
错误任务的诊断
输入数据:即MLE训练的输入,特征和标注(解分母lattice需要特征,解分子lattice需要特征和标注)
其他输入:
Nextg解lattice需要1.打包成wfst的语言模型和用于2.二遍解码的语言模型,3.打包成所需格式的声学模型,4.triphone和5.phone,6.words的序号列表
Vdecoder解lattice需要1.文本格式的wfst(解分母)或者 G.fst(解分子用,从syllable到phone的fst)2.htk格式的声学模型和hmmlist,3.triphone和4.phone,5words的序号列表
Nextg和Vdecoder混合解码需要上述所有资源(nextg作onepass解码得到稍大的lattice,Vdecoder作rescore得到mpe所需lattice)
解lattice
演示Vdecoder解lattice任务提交方法
1.准备资源
2.编写(修改)脚本
3.提交任务
演示NextG解lattice任务提交方法
同上,其中的资源准备阶段的wfst和声学模型打包成nextg需要的格式需要注意使用相同的triphone.syms,words.syms,phone.syms和L.fst, A2.fst,C.fst, w2c_dict.fst
解lattice任务提交
利用Vdecoder解lattice的资源打包
语言模型+词典(syllable-phones) 文本格式的wfst+phone.syms+trihone.syms+words.syms+A2/C/L.fst
利用nextG解lattice的资源打包
文本格式的wfst 二进制格式的nextg所需的wfst
声学模型+L/A2/C.fst 二进制的nextg格式的声学模型
解lattice资源打包
输入:解好分子和分母lattice的数据文件,MLE训练得到的MLE声学模型
使用脚本迭代若干步:
数据文件+声学模型=mapreduce=acc/occ
Acc/occ+声学模型=本地更新=新声学模型
演示: (具体流程见技术文档)
MPE训练
1.执行FA
您可能关注的文档
- 1.1宇宙中的地球 1.ppt
- 1.2固体材料的晶体结构.ppt
- 1.2实验基本操作.ppt
- 1.地球的宇宙环境.ppt
- 1.高级光学显微镜及其使用.ppt
- 1:1万地球化学土壤测量生产实际应用技术.ppt
- 1-1地球的宇宙环境.ppt
- 1-1地球在宇宙中.ppt
- 1地质力学基本原理及其应用-综述1.ppt
- 1.1-宇宙中的地球课件.ppt
- 2024_2025学年高中化学专题三有机化合物的获得与应用第一单元第3课时石油炼制乙烯学案苏教版必修2.doc
- 2024_2025学年新教材高中生物第6章生物的进化章末检测试卷含解析新人教版必修第二册.docx
- 2024_2025学年新教材高中英语UNIT3CELEBRATIONSSectionⅤLESSON3.doc
- 2025届高考政治一轮复习课时作业32哲学基本思想马克思主义哲学含解析.doc
- 2024_2025学年新教材高中生物综合测评含解析新人教版选择性必修1.doc
- 2024_2025学年高中语文诗歌部分第1单元天狗训练含解析新人教版选修中国现代诗歌散文欣赏.doc
- 2024_2025学年高中数学第一章计数原理1.2排列学案含解析北师大版选修2_3.doc
- 2024_2025学年新教材高中生物第5章植物生命活动的调节测评含解析新人教版选择性必修第一册.docx
- 2024_2025学年高中语文第3单元8拿来主义教案新人教版必修4.doc
- 高中历史热门阅读中国历史上十个神秘人物是神是人无人知晓素材.doc
文档评论(0)