BLEU一种机器翻译自动评价方法选读.docx

下载文档 降价啦

1
0
约4.97千字
约 8页
2017-06-26 发布于湖北
举报
版权申诉
保障服务

BLEU一种机器翻译自动评价方法选读.docx

1、本文档共8页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

BLEU : 一种机器翻译自动评价方法BLEU：a Method for Automatic Evaluation of Machine Translation（1）Kishore Papineni，SalimRoukos，Todd Ward, and Wei-Jing Zhu编译：洪洁文章来源：多语工程技术研究中心《云翻译技术》第12期摘要：这篇论文是关于BLEU方法的最原始的文字，由IBM公司的研究人员发表。论文从机器翻译评价的研究背景开始，详细介绍了BLEU 方法的基本原理，基本要素，和基本测量指标的选取、指标的修正，以及最终获取BLEU值的计算公式。论文中还对BLEU值的可信性的进行了考察。研究者们作了一系列的翻译评价测试，观测基本测量指标值和最终的BLEU值能否区分人工翻译结果和机器翻译结果，不同的机器翻译结果和不同的人工翻译结果。最后，研究者们还对BLEU值评分和人工评分作了一个相关性分析。研究背景论文首先提到为什么要进行这个研究。对机器翻译作人工评价时会考量到翻译的许多方面：如翻译的充分性、忠实度、和流畅度。通常这些人工评价工作非常费时也非常昂贵。对于机器翻译的研发人员来说这种人工评价方式非常不方便，因为他们需要对机器翻译系统作日常的监测和评估，以了解每个小改变，从而甄选出好的想法。在这篇论文中，研究者们提出一种快速、费用低廉、不受语言种类限制，而且同人工评价高度相关的机器翻译自动评价方法。他们是如何评价翻译的好坏呢？研究者们的评价方法所依据的论点是：机器翻译同专业人工翻译越接近越好。为了评价机器翻译质量，他们还需要使用某种“数值型度量指标”来衡量机器译文同人工翻译的参考译文的相近程度。因此这个新的自动评价系统包括两个要素：数值型度量指标，用来计量待测翻译结果同参考译文的相近程度；高质量的人工翻译参考译文。其中数值型度量指标参考了语音识别工作中使用的“单词出错率”这个指标，并作了一些调整：如使用多个参考译文，允许选用不同的单词（同义词）和不同的词语顺序。BLEU方法使用的基本度量指标和概念2.1 “n单位片段” （n-gram）由于语言的多样性和复杂性，在通常情况下，一句话会有多个“正确”的翻译方式，对应着多个正确的译文。这些译文中可能选用不同的词语，或者是选用的词语相同而语言顺序不同，而人类总是能够清楚地分辨出哪个是更好的译文。比如例1中对同一句汉语的两种译法：例1：待评价译文 1: It is a guide to action which ensures that the military always obeys the commands of the party.待评价译文 2: It is to insure the troops forever hearing the activity guidebook that party direct.两个译文质量差别明显，待评价译文1 的质量明显好于待评价译文2。为了比较，我们为这句话提供了三个参考译文：参考译文 1: It is a guide to action that ensures that the military will forever heed Party commands.参考译文 2:It is the guiding principle which guarantees the military forces always being under the command of the Party. 参考译文 3: It is the practical guide for the army always to heed the directions of the party. 可以看到待评价译文1同三个参考译文有着较多的相同字词和短语，而待评价译文2 则没有。待评价译文1同参考译文1 相同的部分有 ‘It is a guide to action ’‘ensures that the military ’‘commands’，同参考译文2 相同的部分有‘which’‘always’‘of the party ’, 同参考译文3 相同的部分有‘always’。相比之下，待评价译文2 同三个参考译文的相似处极少。 BLEU 方法便是对待评价译文和参考译文的“n-单位片段（n-gram）”进行比较，并计算出匹配片段的个数。这些匹配片段与它们在文字中存在的位置无关。匹配片段数越多，则待评价译文质量越好。作者从最简单的情况，“1单位片段（unigram）”匹配情况开始介绍。2.2 精确度（Precision）和“修正的n-单位精确度”(modified n-gram precision)论文中研究者们使用的“数值型度量指标”基础是精确度