网站大量收购独家精品文档,联系QQ:2885784924

统计机器翻译中译知识优化方法研究.pdf

  1. 1、本文档共67页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计机器翻译中译知识优化方法研究

统计机器翻译中翻译知识优化方法研究 摘要 统计机器翻译中翻译知识优化方法研究 摘要 现有统计机器翻译系统对于大规模训练语料有着较强的依赖性,原因在于:大规 模双语训练语料往往蕴含丰富的翻译知识和语言知识,对于翻译模型和目标语言模型 都有着积极的指导作用。然而,随着训练语料规模的增长,往往会出现如下一种无法 回避的负面问题:翻译知识中存在着冗余信息和错误信息,误导翻译模型和语言模型 的学习与应用。为此,本文集中研究了统计机器翻译中翻译知识的优化问题,并提出 解决这一问题的新方法,主要研究内容归纳如下:  训练语料选择 本文以训练语料的质量为评价标准,提出了基于分类的平行语料选择方法。利用 句对特征的排序结果构建区分性较大的正负例句对,然后使用上述区分性较大的句对 训练分类器,最后借助分类器自动地进行语料质量判定分类工作。判定完语料质量后, 仅选择语料质量好的句对作为机器翻译系统的训练语料。在大规模语料上进行的实验 表明本文所提方法能比基准系统高出0.87 个BLEU 点。  翻译知识中噪音的过滤 针对口语翻译系统中实词翻译丢失的问题,本文选择在层次短语模型上开展研究。 针对层次短语模型特点,本文提出一种启发式的短语表 (翻译知识)过滤方法。该方 法有效地将一些含有实词翻译丢失现象的噪音短语进行排除。本文选择在口语翻译任 务上进行实验,实验结果表明本方法能在有效缓解实词翻译丢失问题的同时提高 BLEU 值。  翻译知识中主题信息的融合 本文选择在调序模型中融入主题信息。首先,利用主题模型估计训练语料的主题 信息,然后使用设计的主题信息特征模板抽取含有主题信息的调序实例,使用抽取出 I 摘要 统计机器翻译中翻译知识优化方法研究 的调序实例训练调序模型。最后我们将融合文档主题信息的调序模型集成到机器翻译 系统中,并设计出该系统的翻译解码过程。在大规模语料上的实验证明了本文所提方 法的有效性。 关键词:统计机器翻译;语料选择;短语表过滤;文档主题信息 作者:王 星 指导教师:姚建民 洪 宇 II Optimization on Translation Knowledge in Statistical Machine Translation Abstract Optimization on Translation Knowledge in Statistical Machine Translation Abstract The performance of statistical machine translation is largely dependent on large-scale training bilingual data, because the translation knowledge and language knowledge in the training data play a positive role in constructing translation model and language model. However, the problem that translation knowledge contains some redundancy infor

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档