hadoop下声学模型训练工具.pptVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
HADOOP 下声学模型训练工具 原理和使用简介 研究院-数据中心 MLE训练工具完整移植了dtm下的EasyTraning流程 可以进行解lattice,解mfcc特征,解tandem特征等任务 可进行MPE训练 形成了简易的开发框架,可供后续方便地进行开发 HADOOP下声学模型训练工具现状 Hadoop与DTM训练对比 Hadoop与DTM训练对比 Hadoop与DTM训练对比 数据: DTM使用列表管理和使用数据,hadoop将所需要的数据打包在一起供程序流式读取使用,所以在解lattice等操作时,hadoop会额外地将输出的lattice和特征一起输出到打包文件中供之后的程序使用 任务:DTM和HADOOP类似,都采取了分布式的任务管理模式 Hadoop对比DTM的优势 结构化的顺序文件 VS 松散的小文件 数据一站式管理 VS 繁杂的数据分发 Hadoop集群的监控,运行任务的监控 9/ganglia 集群的运行状态监控 00:50030 hadoop集群的任务运行情况 00:50070 hadoop集群的文件系统监控 Hadoop下声学训练工具使用方法 1.所需要的打包程序在\\91\spyu\bin中,由于程序仍需要维护的关系,请直接使用其中的程序而不要拷贝出来。 2.运行打包脚本,使用dtm训练相同格式的scp文件进行打包,得到特征标注的大块文件。 3.将打包好的文件上传到hdfs上。 4.演示: (具体步骤见手册中) 数据打包 一个mapreduce任务为训练的一次迭代(相当于一次HERest迭代),或者数据的一次处理(修改标注) 通过脚本将多个任务串联起来,形成完整的训练流程,如Easytraining流程,MPE多步迭代流程等 HADOOP下声学模型训练工具形式 输入数据:特征和标注 其他输入:对应标注的syllable到phone的词典,初始模型生成的hhed编辑文件,用于聚类状态的问题集 训练过程: 打包数据 MLE的easytraining脚本运行,进行mle训练 见下一页 MLE训练 进行必要的设置: easytraining\g_variable_hadoop.pm 运行EasyTraining脚本,即可完成完整的MLE训练 演示: MLE训练-EasyTraining运行 查看log日志,例子:job_201206110901_0025 danliu 进行调试,例子:job_201206110901_0013 taoyu den lat 错误任务的诊断 输入数据:即MLE训练的输入,特征和标注(解分母lattice需要特征,解分子lattice需要特征和标注) 其他输入: Nextg解lattice需要1.打包成wfst的语言模型和用于2.二遍解码的语言模型,3.打包成所需格式的声学模型,4.triphone和5.phone,6.words的序号列表 Vdecoder解lattice需要1.文本格式的wfst(解分母)或者 G.fst(解分子用,从syllable到phone的fst)2.htk格式的声学模型和hmmlist,3.triphone和4.phone,5words的序号列表 Nextg和Vdecoder混合解码需要上述所有资源(nextg作onepass解码得到稍大的lattice,Vdecoder作rescore得到mpe所需lattice) 解lattice 演示Vdecoder解lattice任务提交方法 1.准备资源 2.编写(修改)脚本 3.提交任务 演示NextG解lattice任务提交方法 同上,其中的资源准备阶段的wfst和声学模型打包成nextg需要的格式需要注意使用相同的triphone.syms,words.syms,phone.syms和L.fst, A2.fst,C.fst, w2c_dict.fst 解lattice任务提交 利用Vdecoder解lattice的资源打包 语言模型+词典(syllable-phones)  文本格式的wfst+phone.syms+trihone.syms+words.syms+A2/C/L.fst 利用nextG解lattice的资源打包 文本格式的wfst  二进制格式的nextg所需的wfst 声学模型+L/A2/C.fst  二进制的nextg格式的声学模型 解lattice资源打包 输入:解好分子和分母lattice的数据文件,MLE训练得到的MLE声学模型 使用脚本迭代若干步: 数据文件+声学模型=mapreduce=acc/occ Acc/occ+声学模型=本地更新=新声学模型 演示: (具体流程见技术文档) MPE训练 1.执行FA

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档