- 1、本文档共37页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计机器翻译简明教程 兼谈相关工具的使用 何中军 2007年11月 提纲 系统结构 前处理 词语对齐 短语抽取 解码 后处理 参数训练 评测 训练语料库 训练语料库为双语语料库 格式不固定,可以是文本格式,xml格式等等 要求必须句子对齐 语料预处理 目的:将各种格式不同的生语料进行加工,形成格式统一的语料库,以便进行词语对齐 步骤: 汉语分词 工具:ICTCLAS 汉语全半角转换 功能: 将A3区的全角字符转换为半角字符 程序:A2B 命令行: A2B input output 英语分词 工具:Brill 英语首字母小写还原 功能:将英语语料库中的句首字母进行大小写转换。如果首单词在语料库中出现的次数小写多于大写,则将首字母变为小写。 程序:Truecase 命令行:Truecase input output 处理后训练语料库 词语对齐 GIZA++词语对齐 词语对齐后处理 添加句首句尾标记 词语对齐 – GIZA++训练 输入:汉语文本,英语文本,一行一句,句子对齐 plain2snt:统计单词数,格式转换 命令行 ./plain2snt.out chinese english mkcls:单词聚类 命令行: ./mkcls -n1 -pchinese -Vchinese.vcb.classes opt -n:表示训练迭代的次数,一般迭代1次 -p:要聚类的文本,一行一句(已分词) -V:输出信息 opt:优化运行 GIZA++:词语对齐 命令行: ./GIZA++ -S chinese.vcb -T english.vcb -C chinese_english.snt -O c2e -S:源语言单词表 -T:目标语言单词表 -C:源语言—〉目标语言句子对 -O:输出文件夹 运行结束后,输出很多文件到c2e/文件夹中,主要是产生的对齐文件: GIZA++对齐几点说明 一般双向训练,汉语-英语,英语-汉语 训练流程: 词语对齐后处理 对GIZA++的词语对齐进行优化 工具:WordAlign 命令行: 词语对齐后处理(续) 添加句首句尾标记 命令行: AddHeadTail input output 功能: 为对齐后的句子加上开始结束符,s /s 短语抽取 从词语对齐的语料库中得到短语翻译 工具: phraseExtractor 功能:抽取短语,统计短语出现次数 phraseScoring 功能:计算短语的词汇化翻译概率 phraseExtractor.pl 功能:驱动以上两个程序的脚本文件 短语抽取(续) 短语表过滤 根据测试文件对短语表进行过滤 短语表过滤(续) SelectBP bpfile testfile outfile c2e 语言模型训练 ngram-count -text english -lm lm.gz -unk -kndiscount -order 4 -write-arpa -text: 要训练的文本,一行一句 -lm: 输出文件名 -unk:未登录词 -kndiscount:平滑 -order: 语言模型的元数(n-gram) -write-arpa: apra格式 Confucius的解码 – 基于短语的解码器 解码器的配置文件 Log-linear模型的训练过程 结果评测 Log-linear模型训练过程 训练过程 ./confucius.pl –root-dir . –corpus nist –first-loop 0 –total-loop 10 --root-dir 路径名,一般为本目录下 --corpus 开发集名字,程序自动到corpus/目录下寻找nist.dev-src和nist.dev-ref,所以,一定要在corpus/下存在这两个文件 --first-loop 从第几轮开始迭代,默认第0轮 --total-loop 迭代到第几轮,默认10 程序创建三个文件夹: results/ 存放产生的结果文件 nbestfeats/ 存放用于最小错误率训练的nbest特征文件 config/ 存放最小错误率训练的得到的参数,和Confucius的配置文件 result/ result0.txt, result1.txt …分别对应由配置文件searchconfig0.txt searchconfig1.txt … 产生的结果文件 result0.nist.eval result1.nist.eval分别是result0.txt result1.txt的评测文件,从中可以看到它们的bleu值 nbesetfeat/ can
您可能关注的文档
- 线性变换的矩阵表示.ppt
- 线性方程组解的存在唯一性.ppt
- 线性离散系统状态方程的解.ppt
- 组内优质课25长征.ppt
- 线性系统的时域分析法.ppt
- 组合数学第一章习题解答.ppt
- 组成原理第5章-1.ppt
- 组合式水预冷装置全流态化多功能节能速冻机.ppt
- 组织变革与企业文化.ppt
- 组织文化与组织行为.ppt
- 2023年福建中考数学试卷.docx
- 国庆节慰问信集合八篇.docx
- 探究哲学之源.pptx
- 专题10《陋室铭》(过关检测)-2024年中考语文课内39篇文言文阅读.docx
- 年产20万吨环保型塑料包装圆织车间数字化改造项目可行性研究报告写作模板-申批备案.doc
- 旅游季度盘点.pptx
- 专题03平面直角坐标系全章高频考点专练(考点清单,1个概念3个应用2个规律3种思想专练)原卷版.docx
- 专题63:综合题之比较类强化训练(解析版)-备战2021届高考地理二轮复习题型专练.doc
- 吉林省延边州汪清县第六中学2021-2022学年高一下学期期末考试化学试题.docx
- 专题04回归直线方程与非线性回归方程(典型例题题型归类练).docx
文档评论(0)