- 1、本文档共19页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
“丝路”统计机器翻译系统总体设计介绍.ppt
2006-10-17 第二届统计机器翻译研讨会 北京 “丝路”统计机器翻译系统总体设计介绍 主要内容 统计机器翻译简介 “丝路”统计机器翻译系统 基于短语的统计机器翻译模型 (Modeling) 短语翻译模型和语言模型的训练 (Training) 解码 (Decoding) 翻译结果评价(Evaluation) 统计机器翻译简介 统计机器翻译的基本思想:给定源语言句子c,找到翻译概率最大的目标语言句子e 所有的概率模型是通过双语平行语料库训练得到的 统计机器翻译的特点 数据驱动的 (Data Driven) 语言无关的 (Language Independent) 不需要复杂的语言学专家知识 能够以最小的代价快速的构建新语言对的翻译系统 翻译质量随着训练数据的增加能逐渐提高 统计机器翻译的基本问题 统计建模 (Modeling):如何计算 噪声通道模型 (Source-channel model ,Brown 1993) 对数线性模型 (Log linear model, Och 2002) 根据概率分解及特征选择的不同又可以分为基于词汇、基于短语、基于句法的模型 参数训练 (Training): 确定模型参数值 翻译解码 (Decoding): 有哪些信誉好的足球投注网站最佳的翻译 “丝路”系统设计概要 采用目前统计机器翻译研究中比较成熟、效果较好的基于短语的统计翻译模型 (Koehn 2003, 2004) 充分利用国际上已有的资源和工具 补充完成尚不能公开获得的关键模块 能够完成从训练到翻译、结果评价一套完整的流程 实现时采用了“863中文信息处理与智能人机接口评测” 2005年汉英机器翻译评测的数据集 主要内容 统计机器翻译简介 “丝路”统计机器翻译系统 基于短语的统计机器翻译模型 (Modeling) 短语翻译模型和语言模型的训练 (Training) 解码 (Decoding) 翻译结果评价(Evaluation) 基于短语的统计机器翻译模型 以短语作为翻译的基本单位 采用对数线性模型实现 短语翻译特征: 语言模型特征: 模型训练流程 (1) 短语翻译模型训练流程 模型训练流程 (2) 语言模型训练流程 解码(翻译)流程 翻译结果评价 采用自动评价工具对系统的输出结果进行评价 模块划分 系统由以下模块构成 每个模块都是一个可独立执行的文件 模块之间以文件作为接口,对文件格式进行了统一定义 已有工具简介 汉语分词工具ICTCLAS 英语分词工具tokenizeE.perl /ws99/projects/mt/toolkit/ 词语对齐工具GIZA++ /GIZA++.html /bluegene/archives/files/GIZA++.Win32.BlueGene.rar /~liuyang/papers/construct_smts.pdf 语言模型工具SRI /projects/srilm/download.html 863机器翻译评测工具 目前水平:2005年863评测 对话: bleu = 0.2123 篇章: bleu = 0.1562 计算所目前研究结果:2005年NIST评测 “丝路”系统模块报告 语料库预处理及翻译后处理 词汇对齐及短语抽取 “骆驼(Camel)”解码器 “商队(Caravan)”解码器 “绿洲(Oasis)”解码器 参考文献 Brown, Peter F., Stephen A. Della Pietra, Vincent J. Della Pietra Robert L. Mercer: 1993, “The mathematics of statistical machine translation: Parameter estimation”, Computational Linguistics,19(2): 263-311. Franz Josef Och, Hermann Ney. “Discriminative Training and Maximum Entropy Models for Statistical Machine Translation”. In ACL 2002: Proc. of the 40th Annual Meeting of the Association for Computational Linguistics” pp. 295-302 Philipp Koehn, Franz Josef Och, and Daniel Marcu, “Statistical Phrase-Based Translation”, HLT/NAACL 2003 Phili
文档评论(0)