- 1、本文档共37页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(统计机器翻译简明教程
统计机器翻译简明教程 兼谈相关工具的使用 何中军 2007年11月 提纲 系统结构 前处理 词语对齐 短语抽取 解码 后处理 参数训练 评测 训练语料库 训练语料库为双语语料库 格式不固定,可以是文本格式,xml格式等等 要求必须句子对齐 语料预处理 目的:将各种格式不同的生语料进行加工,形成格式统一的语料库,以便进行词语对齐 步骤: 汉语分词 工具:ICTCLAS 汉语全半角转换 功能: 将A3区的全角字符转换为半角字符 程序:A2B 命令行: A2B input output 英语分词 工具:Brill 英语首字母小写还原 功能:将英语语料库中的句首字母进行大小写转换。如果首单词在语料库中出现的次数小写多于大写,则将首字母变为小写。 程序:Truecase 命令行:Truecase input output 处理后训练语料库 词语对齐 GIZA++词语对齐 词语对齐后处理 添加句首句尾标记 词语对齐 – GIZA++训练 输入:汉语文本,英语文本,一行一句,句子对齐 plain2snt:统计单词数,格式转换 命令行 ./plain2snt.out chinese english mkcls:单词聚类 命令行: ./mkcls -n1 -pchinese -Vchinese.vcb.classes opt -n:表示训练迭代的次数,一般迭代1次 -p:要聚类的文本,一行一句(已分词) -V:输出信息 opt:优化运行 GIZA++:词语对齐 命令行: ./GIZA++ -S chinese.vcb -T english.vcb -C chinese_english.snt -O c2e -S:源语言单词表 -T:目标语言单词表 -C:源语言—〉目标语言句子对 -O:输出文件夹 运行结束后,输出很多文件到c2e/文件夹中,主要是产生的对齐文件: GIZA++对齐几点说明 一般双向训练,汉语-英语,英语-汉语 训练流程: 词语对齐后处理 对GIZA++的词语对齐进行优化 工具:WordAlign 命令行: 词语对齐后处理(续) 添加句首句尾标记 命令行: AddHeadTail input output 功能: 为对齐后的句子加上开始结束符,s /s 短语抽取 从词语对齐的语料库中得到短语翻译 工具: phraseExtractor 功能:抽取短语,统计短语出现次数 phraseScoring 功能:计算短语的词汇化翻译概率 phraseExtractor.pl 功能:驱动以上两个程序的脚本文件 短语抽取(续) 短语表过滤 根据测试文件对短语表进行过滤 短语表过滤(续) SelectBP bpfile testfile outfile c2e 语言模型训练 ngram-count -text english -lm lm.gz -unk -kndiscount -order 4 -write-arpa -text: 要训练的文本,一行一句 -lm: 输出文件名 -unk:未登录词 -kndiscount:平滑 -order: 语言模型的元数(n-gram) -write-arpa: apra格式 Confucius的解码 – 基于短语的解码器 解码器的配置文件 Log-linear模型的训练过程 结果评测 Log-linear模型训练过程 训练过程 ./confucius.pl –root-dir . –corpus nist –first-loop 0 –total-loop 10 --root-dir 路径名,一般为本目录下 --corpus 开发集名字,程序自动到corpus/目录下寻找nist.dev-src和nist.dev-ref,所以,一定要在corpus/下存在这两个文件 --first-loop 从第几轮开始迭代,默认第0轮 --total-loop 迭代到第几轮,默认10 程序创建三个文件夹: results/ 存放产生的结果文件 nbestfeats/ 存放用于最小错误率训练的nbest特征文件 config/ 存放最小错误率训练的得到的参数,和Confucius的配置文件 result/ result0.txt, result1.txt …分别对应由配置文件searchconfig0.txt searchconfig1.txt … 产生的结果文件 result0.nist.eval result1.nist.eval分别是result0.txt result1.txt的评测文件,从中可以看到它们的bleu值 nbesetfeat/ can
您可能关注的文档
- (第四章压路机的选型及压实.ppt
- (第四章培养诚信品质.ppt
- (第四章国际货物运输.ppt
- (第四章呼叫处理的基本原理.ppt
- (第四章国际避税及其方式.ppt
- (第四章工业企业主要经营过程的核算.ppt
- (第四章房地产评估1.ppt
- (第四章千奇百怪之茶俗.ppt
- (第四章杜甫.ppt
- (第四章基本经济制度.ppt
- 2024年江西省寻乌县九上数学开学复习检测模拟试题【含答案】.doc
- 2024年江西省省宜春市袁州区数学九上开学学业水平测试模拟试题【含答案】.doc
- 《GB/T 44275.2-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第2部分:术语》.pdf
- 中国国家标准 GB/T 44275.2-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第2部分:术语.pdf
- GB/T 44285.1-2024卡及身份识别安全设备 通过移动设备进行身份管理的构件 第1部分:移动电子身份系统的通用系统架构.pdf
- 《GB/T 44285.1-2024卡及身份识别安全设备 通过移动设备进行身份管理的构件 第1部分:移动电子身份系统的通用系统架构》.pdf
- 中国国家标准 GB/T 44285.1-2024卡及身份识别安全设备 通过移动设备进行身份管理的构件 第1部分:移动电子身份系统的通用系统架构.pdf
- GB/T 44275.11-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第11部分:术语制定指南.pdf
- 中国国家标准 GB/T 44275.11-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第11部分:术语制定指南.pdf
- 《GB/T 44275.11-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第11部分:术语制定指南》.pdf
文档评论(0)