ZZX_MT系统评测报告PPT.ppt

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ZZX_MT系统评测报告PPT

ZZX_MT系统评测报告 巢文涵 李舟军 北航计算机学院 2008-11 提纲 引言 系统描述 词对齐 模型训练 SMT模型及解码器 实验 结论讨论 1.引言 中英SMT系统中的两个问题 词对齐 (Word Alignment) 重定序 (Reordering) 解决办法 词对齐中引入启发式规则,加入ITG约束 重定序模型中结合ITG和句法知识 两个评测 中-英新闻 英-中科技 2.系统描述 ZZX_MT:一个Log-Linear SMT系统 词对齐模块 模型训练模块 解码器模块 词对齐(1/2) 问题 中-英词序差别大 非一一对应 解决思路 在词对齐有哪些信誉好的足球投注网站过程中引入句法知识(ITG文法) ITG:反向转录文法 (Wu 1997) 词对齐(2/2) 词对齐中引入ITG约束算法 模型训练(1/2) 需要训练的模型 语言模型:SRILM 翻译模型: 重定序模型 问题:数据稀疏 解决办法:利用子块近似预测整个块的方向 如: 模型训练(2/2) 块的提取 翻译信息的提取 重定序信息的提取 解码器(1/3) SMT模型特征 翻译模型: 重定序模型 语言模型 词惩罚 短语惩罚 树的同构模型 计算源句法分析树与解码过程中生成的ITG树的结构相似性 尽量使得:句法树的每个子树能够映射到ITG树中的子树 解码器(2/3) 解码过程 束有哪些信誉好的足球投注网站的CYK 解码过程看作是ITG规则的应用序列,最终形成的目标句子与源句子会形成一棵ITG树 数据结构 为每个源短语创建的翻译选项列表。每个选项的结构如下 : 解码器(3/3) 解码算法 3.实验 两个受限翻译评测 中-英新闻翻译评测 英-中科技翻译评测 测试环境 操作系统:Windows2K CPU:AMD64 2.8G 内存:1G 中-英新闻翻译评测 (1/3) 语料来源 CWMT08提供的新闻语料(Common部分)作为训练集 预处理 去掉长句 全角符号处理 分词:中文ICTCLAS ,英文WMT05的Tokenizer工具 英文的词根化处理:词对齐过程中使用 句法分析:Stanford的Parser 训练语料库: 724,914 句对 中-英新闻翻译评测(2/2) 实验设计及结果 结论 同构模型对于翻译结果产生的积极的影响,各个指标均比两个对照组的结果好 方向偏好产生了负面的影响,原因可能有: 一是因为中英文的输出顺序变化非常大,简单的计算输出方向不具有解释能力,反而影响了模型的稳定性; 二是模型的权值调整过程中,过度拟合,导致在真实测试集上效果不佳 英-中科技翻译评测 语料来源 CWMT08提供的科技语料(Special)作为训练集 采用类似的预处理后,共:616597个句对 实验设计及结果 结论 采用同构模型后产生了负面影响,原因需要进一步分析,可能有: 中文过于灵活,采用英文的句法对目标句子进行约束,可能导致某些好的组合难于出现 来源于我们程序的Bug,以字为单位,这导致了大量的短语对被过滤掉 4.总结讨论 参与了两个单元的评测 试图在SMT系统中结合句法知识 试图在词对齐中结合ITG约束 在模型训练及解码过程中结合ITG约束和句法分析树知识 结果不同 在中-英新闻任务中,采用同构模型提高了翻译质量, 在英-中科技任务中,同构模型的采用产生了负面影响,具体的原因我们将在后续进一步研究 主要参考文献 Franz Joseph Och and Hermann Ney. 2003. A Systematic Comparison of Various Statistical Alignment Models. Computational Linguistics, 29(1):19–52. Deyi Xiong, Qun Liu and Shouxun Lin. 2006. Maximum Entropy Based Phrase Reordering Model for Statistical Machine Translation. In Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, pages521-528. Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, Robert L. Mercer. 1993. The mathematics of statistical machine translation: parameter estimation. Comput

文档评论(0)

叮当文档 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档