hadoop下声学模型训练工具.pptVIP

下载本文档

3
0
约3.78千字
约 10页
2019-02-18 发布于北京
举报
版权申诉

hadoop下声学模型训练工具.ppt

1、本文档共10页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

HADOOP 下声学模型训练工具原理和使用简介研究院-数据中心 MLE训练工具完整移植了dtm下的EasyTraning流程可以进行解lattice，解mfcc特征，解tandem特征等任务可进行MPE训练形成了简易的开发框架，可供后续方便地进行开发 HADOOP下声学模型训练工具现状 Hadoop与DTM训练对比 Hadoop与DTM训练对比 Hadoop与DTM训练对比数据： DTM使用列表管理和使用数据，hadoop将所需要的数据打包在一起供程序流式读取使用，所以在解lattice等操作时，hadoop会额外地将输出的lattice和特征一起输出到打包文件中供之后的程序使用任务：DTM和HADOOP类似，都采取了分布式的任务管理模式 Hadoop对比DTM的优势结构化的顺序文件 VS 松散的小文件数据一站式管理 VS 繁杂的数据分发 Hadoop集群的监控，运行任务的监控 9/ganglia 集群的运行状态监控 00:50030 hadoop集群的任务运行情况 00:50070 hadoop集群的文件系统监控 Hadoop下声学训练工具使用方法 1.所需要的打包程序在\\91\spyu\bin中，由于程序仍需要维护的关系，请直接使用其中的程序而不要拷贝出来。 2.运行打包脚本，使用dtm训练相同格式的scp文件进行打包，得到特征标注的大块文件。 3.将打包好的文件上传到hdfs上。 4.演示: (具体步骤见手册中) 数据打包一个mapreduce任务为训练的一次迭代（相当于一次HERest迭代），或者数据的一次处理(修改标注) 通过脚本将多个任务串联起来，形成完整的训练流程，如Easytraining流程，MPE多步迭代流程等 HADOOP下声学模型训练工具形式输入数据：特征和标注其他输入：对应标注的syllable到phone的词典，初始模型生成的hhed编辑文件，用于聚类状态的问题集训练过程：打包数据 MLE的easytraining脚本运行，进行mle训练见下一页 MLE训练进行必要的设置： easytraining\g_variable_hadoop.pm 运行EasyTraining脚本，即可完成完整的MLE训练演示： MLE训练-EasyTraining运行查看log日志，例子：job_201206110901_0025 danliu 进行调试，例子：job_201206110901_0013 taoyu den lat 错误任务的诊断输入数据：即MLE训练的输入，特征和标注（解分母lattice需要特征，解分子lattice需要特征和标注）其他输入： Nextg解lattice需要1.打包成wfst的语言模型和用于2.二遍解码的语言模型，3.打包成所需格式的声学模型，4.triphone和5.phone，6.words的序号列表 Vdecoder解lattice需要1.文本格式的wfst（解分母）或者 G.fst（解分子用，从syllable到phone的fst）2.htk格式的声学模型和hmmlist，3.triphone和4.phone，5words的序号列表 Nextg和Vdecoder混合解码需要上述所有资源（nextg作onepass解码得到稍大的lattice，Vdecoder作rescore得到mpe所需lattice）解lattice 演示Vdecoder解lattice任务提交方法 1.准备资源 2.编写（修改）脚本 3.提交任务演示NextG解lattice任务提交方法同上，其中的资源准备阶段的wfst和声学模型打包成nextg需要的格式需要注意使用相同的triphone.syms，words.syms，phone.syms和L.fst, A2.fst，C.fst, w2c_dict.fst 解lattice任务提交利用Vdecoder解lattice的资源打包语言模型+词典（syllable-phones）  文本格式的wfst+phone.syms+trihone.syms+words.syms+A2/C/L.fst 利用nextG解lattice的资源打包文本格式的wfst  二进制格式的nextg所需的wfst 声学模型+L/A2/C.fst  二进制的nextg格式的声学模型解lattice资源打包输入：解好分子和分母lattice的数据文件，MLE训练得到的MLE声学模型使用脚本迭代若干步：数据文件+声学模型=mapreduce=acc/occ Acc/occ+声学模型=本地更新=新声学模型演示：（具体流程见技术文档） MPE训练 1.执行FA