统计机器翻译简明教程.ppt

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计机器翻译简明教程 兼谈相关工具的使用 何中军 2007年11月 提纲 系统结构 前处理 词语对齐 短语抽取 解码 后处理 参数训练 评测 训练语料库 训练语料库为双语语料库 格式不固定,可以是文本格式,xml格式等等 要求必须句子对齐 语料预处理 目的:将各种格式不同的生语料进行加工,形成格式统一的语料库,以便进行词语对齐 步骤: 汉语分词 工具:ICTCLAS 汉语全半角转换 功能: 将A3区的全角字符转换为半角字符 程序:A2B 命令行: A2B input output 英语分词 工具:Brill 英语首字母小写还原 功能:将英语语料库中的句首字母进行大小写转换。如果首单词在语料库中出现的次数小写多于大写,则将首字母变为小写。 程序:Truecase 命令行:Truecase input output 处理后训练语料库 词语对齐 GIZA++词语对齐 词语对齐后处理 添加句首句尾标记 词语对齐 – GIZA++训练 输入:汉语文本,英语文本,一行一句,句子对齐 plain2snt:统计单词数,格式转换 命令行 ./plain2snt.out chinese english mkcls:单词聚类 命令行: ./mkcls -n1 -pchinese -Vchinese.vcb.classes opt -n:表示训练迭代的次数,一般迭代1次 -p:要聚类的文本,一行一句(已分词) -V:输出信息 opt:优化运行 GIZA++:词语对齐 命令行: ./GIZA++ -S chinese.vcb -T english.vcb -C chinese_english.snt -O c2e -S:源语言单词表 -T:目标语言单词表 -C:源语言—〉目标语言句子对 -O:输出文件夹 运行结束后,输出很多文件到c2e/文件夹中,主要是产生的对齐文件: GIZA++对齐几点说明 一般双向训练,汉语-英语,英语-汉语 训练流程: 词语对齐后处理 对GIZA++的词语对齐进行优化 工具:WordAlign 命令行: 词语对齐后处理(续) 添加句首句尾标记 命令行: AddHeadTail input output 功能: 为对齐后的句子加上开始结束符,s /s 短语抽取 从词语对齐的语料库中得到短语翻译 工具: phraseExtractor 功能:抽取短语,统计短语出现次数 phraseScoring 功能:计算短语的词汇化翻译概率 phraseExtractor.pl 功能:驱动以上两个程序的脚本文件 短语抽取(续) 短语表过滤 根据测试文件对短语表进行过滤 短语表过滤(续) SelectBP bpfile testfile outfile c2e 语言模型训练 ngram-count -text english -lm lm.gz -unk -kndiscount -order 4 -write-arpa -text: 要训练的文本,一行一句 -lm: 输出文件名 -unk:未登录词 -kndiscount:平滑 -order: 语言模型的元数(n-gram) -write-arpa: apra格式 Confucius的解码 – 基于短语的解码器 解码器的配置文件 Log-linear模型的训练过程 结果评测 Log-linear模型训练过程 训练过程 ./confucius.pl –root-dir . –corpus nist –first-loop 0 –total-loop 10 --root-dir 路径名,一般为本目录下 --corpus 开发集名字,程序自动到corpus/目录下寻找nist.dev-src和nist.dev-ref,所以,一定要在corpus/下存在这两个文件 --first-loop 从第几轮开始迭代,默认第0轮 --total-loop 迭代到第几轮,默认10 程序创建三个文件夹: results/ 存放产生的结果文件 nbestfeats/ 存放用于最小错误率训练的nbest特征文件 config/ 存放最小错误率训练的得到的参数,和Confucius的配置文件 result/ result0.txt, result1.txt …分别对应由配置文件searchconfig0.txt searchconfig1.txt … 产生的结果文件 result0.nist.eval result1.nist.eval分别是result0.txt result1.txt的评测文件,从中可以看到它们的bleu值 nbesetfeat/ can

文档评论(0)

shaoye348 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档