基于翻译规则的统计机器翻译.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第40 卷 第2 期 2013 年2 月计 算 机 科 学Vol.40No 第40 卷 第2 期 2013 年2 月 计 算 机 科 学 Vol.40No.2 Computer Science Feb2013 基于翻译规则的统计机器翻译 刘 颖 姜 巍 (清华大学中文系 北京100084) 摘 要 扩展 HMM 模型可以解决词语对齐结果与句法约束冲突,从而更好地进行词语对齐。 在短语对齐基础上利 用目标语言 的短语结构树抽 取翻译规则。 采用扩 展 CYK 算 法 CYKA+ 作 为 系 统 的 解 码 器,该 算 法 可 以 处 理 非 乔 姆 斯基范式的翻译规则;采用两轮解码算法在解码过程中整合语言 模型。 实验表明,与传统词语对齐模型 相 比,改 进 的 HMM 词语对齐模型具有更高的对齐准确率,并且翻译结果的 BLEU 评测得分更高。 采用翻译规则的系统在不同 数 据集上具有更稳定的翻译结果。 两轮解码算法与立方剪枝算法具有相近的解码质量,但前者解码速度更快。 关键词 统计机器翻译,扩展 HMM 模型,翻译规则,CYK+ 算法,BLEU 评分 中图法分类号 文献标识码 TP391.1 A StatisticalMachineTranslationBasedonTranslationRules LIU Ying JIANG Wei (DepartmentofChineseLanguageandLiterature,TsinghuaUniversity,Beijing100084,China) Abstract Improvedhidden Markovmodelwasusedtoalignwordsandsolvetheinconsistencybetweenwordalignment andphrasestructures.TranslationruleswereextractedbasedonalignedphrasesandEnglishphrasetrees.Anextended CYK -CYK+ algorithm wasusedasthedecoderandatwo-pass-decodingalgorithm wasproposedforintergratingthe languagemodelduring decoding,whichcan decodenon-Chomsky normalform.Theexperimentalresultsshow the BLEUscoreofimproved HMMishigherthanthescoreofHMM,andthetranslationqualityoftranslationrulesisbet- terthanphrase-basedmachinetranstion.TheBLEUscoreoftwo-pass-decodingalgorithmisclosetothescoreofcube prunealgorithmanddecodingtimecostsless. Keywords Statisticalmachinetranslation,Improvedhiddenmarkovmodel(HMM),Translationrule,CYK+ algorithm, BLEU 基于句法的翻译模型利用句法分析器或树 库 的 信 息,期 引言 1 望获得句法信息的指导。 基于句法的模型应当能够兼容所有 IBM 的 Brown等人于1993 年提出了基于词 对齐的5 个 复杂度递增的模型—IBM 模 型 1 至 5[1],实现了统计机器翻 译。1996年,Vogel提出基于隐马尔克夫模型(简称 HMM)的 统计翻译[2]。Och系统比较了IBM 模型和 HMM 模型,实现了 IBM 模型 1 至 模 型 5 和 HMM 模 型 词 语 对 齐 Giza+ +[3]。 HeidiJ.Fox指出,Giza+ + 的词语对齐结果与句法约束出现 冲突的可能性很高,Giza+ + 存在大量这类错误的词语对齐 结果[4]。Och等人提出的对齐模板技术可以解决数据稀疏问 题[5]。Och用最大熵模型将各种各样的语言特征和统计信息 融合到统计机器翻译中[6]。 在统计机器翻译中比较深入地利 用句法信息的有吴德恺的反向转换文法[7]、Chiang 提 出 的 层 次化短语模型[8,9]、Yamada 和 Knight的 树 串 模 型[10]、Galley 的 树 串 模 型[11,12]、刘洋和刘群的树到串对齐模板的翻译模 型[13]、宗 成 庆 的 改 进 树 串 模 型[14] 和 Melamed 的

文档评论(0)

小教资源库 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档