(统计机器翻译简明教程.pptVIP

下载本文档

16
0
约1.46万字
约 37页
2017-01-25 发布于北京
举报
版权申诉

(统计机器翻译简明教程.ppt

1、本文档共37页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

(统计机器翻译简明教程

统计机器翻译简明教程兼谈相关工具的使用何中军 2007年11月提纲系统结构前处理词语对齐短语抽取解码后处理参数训练评测训练语料库训练语料库为双语语料库格式不固定，可以是文本格式，xml格式等等要求必须句子对齐语料预处理目的：将各种格式不同的生语料进行加工，形成格式统一的语料库，以便进行词语对齐步骤：汉语分词工具：ICTCLAS 汉语全半角转换功能：将A3区的全角字符转换为半角字符程序：A2B 命令行： A2B input output 英语分词工具：Brill 英语首字母小写还原功能：将英语语料库中的句首字母进行大小写转换。如果首单词在语料库中出现的次数小写多于大写，则将首字母变为小写。程序：Truecase 命令行：Truecase input output 处理后训练语料库词语对齐 GIZA++词语对齐词语对齐后处理添加句首句尾标记词语对齐 – GIZA++训练输入：汉语文本，英语文本，一行一句，句子对齐 plain2snt：统计单词数，格式转换命令行 ./plain2snt.out chinese english mkcls：单词聚类命令行： ./mkcls -n1 -pchinese -Vchinese.vcb.classes opt -n：表示训练迭代的次数，一般迭代1次 -p：要聚类的文本，一行一句（已分词） -V：输出信息 opt：优化运行 GIZA++：词语对齐命令行： ./GIZA++ -S chinese.vcb -T english.vcb -C chinese_english.snt -O c2e -S：源语言单词表 -T：目标语言单词表 -C：源语言—〉目标语言句子对 -O：输出文件夹运行结束后，输出很多文件到c2e/文件夹中，主要是产生的对齐文件： GIZA++对齐几点说明一般双向训练，汉语-英语，英语-汉语训练流程：词语对齐后处理对GIZA++的词语对齐进行优化工具：WordAlign 命令行：词语对齐后处理（续）添加句首句尾标记命令行： AddHeadTail input output 功能：为对齐后的句子加上开始结束符，s /s 短语抽取从词语对齐的语料库中得到短语翻译工具： phraseExtractor 功能：抽取短语，统计短语出现次数 phraseScoring 功能：计算短语的词汇化翻译概率 phraseExtractor.pl 功能：驱动以上两个程序的脚本文件短语抽取（续）短语表过滤根据测试文件对短语表进行过滤短语表过滤（续） SelectBP bpfile testfile outfile c2e 语言模型训练 ngram-count -text english -lm lm.gz -unk -kndiscount -order 4 -write-arpa -text: 要训练的文本，一行一句 -lm: 输出文件名 -unk：未登录词 -kndiscount：平滑 -order: 语言模型的元数（n-gram） -write-arpa: apra格式 Confucius的解码 – 基于短语的解码器解码器的配置文件 Log-linear模型的训练过程结果评测 Log-linear模型训练过程训练过程 ./confucius.pl –root-dir . –corpus nist –first-loop 0 –total-loop 10 --root-dir 路径名，一般为本目录下 --corpus 开发集名字，程序自动到corpus/目录下寻找nist.dev-src和nist.dev-ref，所以，一定要在corpus/下存在这两个文件 --first-loop 从第几轮开始迭代，默认第0轮 --total-loop 迭代到第几轮，默认10 程序创建三个文件夹： results/ 存放产生的结果文件 nbestfeats/ 存放用于最小错误率训练的nbest特征文件 config/ 存放最小错误率训练的得到的参数，和Confucius的配置文件 result/ result0.txt, result1.txt …分别对应由配置文件searchconfig0.txt searchconfig1.txt … 产生的结果文件 result0.nist.eval result1.nist.eval分别是result0.txt result1.txt的评测文件，从中可以看到它们的bleu值 nbesetfeat/ can