统计机器翻译系统中开源软件.docVIP

下载本文档

8
0
约3.26千字
约 7页
2018-06-01 发布于福建
举报
版权申诉

统计机器翻译系统中开源软件.doc

1、本文档共7页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

统计机器翻译系统中开源软件

统计机器翻译系统中开源软件　　统计机器翻译领域中一些重要的开源软件，包括词语对齐工具、语言模型工具等，对于推动统计机器翻译的发展起到了非常重要的作用。　　统计机器翻译在短时期能够得以迅速发展，除了技术进步外，很大一方面要归功于很多开放源码的统计机器翻译工具，有些时候，正是因为这些开放源码的工具才使得某项技术被广泛接受和使用。例如，20世纪90年代初IBM公司的Brown等人提出了5个模型来刻画统计机器翻译，取得了不错的效果，但是在此之后很长一段时间内都没有被大家认可和接受，原因是他们的模型非常复杂，难以理解和实现。直到1999年，开源软件包Egypt的出现，才使得IBM的模型被广泛研究和使用。可以说Brown等人的工作为现代统计机器翻译奠定了深厚的基础，但其影响却是通过开源软件才得以实现，由此可见开源软件对于统计机器翻译这样一个复杂的研究课题的重要性。　　1. 首个开源统计机器翻译工具包Egypt 　　Egypt是在1999年约翰霍普金斯大学统计机器翻译夏季讨论班上，由一些研究人员共同合作开发的统计机器翻译工具包。它包括4个模块; 　　● Whittle: 语料库预处理模块; 　　● GIZA: 用于从句子对齐的双语语料库中训练词语对齐; 　　● Cairo: 词语对齐的可视化工具; 　　● Decoder: 解码器，用来执行具体的翻译过程模块，这一模块没有开放源码。　　其中，用于训练词语对齐的模块GIZA现在仍然被广泛使用，利用它能够非常方便地从大规模的双语文本中获得统计知识。GIZA++是GIZA的改进版，GIZA++实现了IBM公司提出的5个模型，其主要思想是利用EM算法对双语语料库进行迭代训练，由句子对齐得到词语对齐。GIZA是独立于语言的，能够对任何两种语言进行训练，这也是统计机器翻译的优点之一。现在几乎所有的统计机器翻译系统都利用这一工具进行词语对齐的训练。　　2.语言模型训练工具SRILM 　　SRILM是一个建立和使用统计语言模型的开源工具包，从1995年开始由SRI 口语技术与研究实验室（SRI Speech Technology and Research Laboratory）开发，现在仍然不断推出新版本，被广泛应用于语音识别、机器翻译等领域。这个工具包包含一组C++类库、一组进行语言模型训练和应用的可执行程序等。利用它可以非常方便地训练和应用语言模型。给定一组连续的词，调用SRILM提供的接口，可以得到这组词出现的概率。　　3. 机器翻译的自动评测工具Mteval 　　在一些著名的统计机器翻译国际评测中普遍使用自动评测与人工评测相结合的方法，例如美国国家技术和标准研究所（NIST）举行的评测。Mteval便是他们开发的自动评测工具，必威体育精装版版本是mteval-11b.pl，是用Perl语言写成的。　　4. 首个基于短语的统计机器翻译系统“法老”（Pharaoh）　　“法老”是较早公开的统计机器翻译系统，由美国南加州大学信息科学实验室（Information Science Institute）的菲利普#8226;科恩（Philipp Koehn）在2004年做博士论文期间编写的。“法老”包括两大部分: 训练和解码。训练过程用来从语料库中获得统计知识。它利用了已有的开源软件GIZA++和SRILM，GIZA++用来训练词语对齐，SRILM训练语言模型，但解码没有公开源代码。“法老”原理简单，易于使用，它的出现对于推动机器翻译研究起到了非常大的作用。　　5. 中国首个开源的统计机器翻译系统丝路（SilkRoad）　　“法老”的出现揭开了统计机器翻译的神秘面纱，然而其核心部分――解码器的源码仍然没有公开。为此，中国的研究人员联合开发了一个完全开放源代码的统计机器翻译系统――“丝路”。该系统由中国的五家研究机构和高校（中科院计算所、中科院自动化所、中科院软件所、厦门大学、哈尔滨工业大学）联合开发，并在2006年中国第二届统计机器翻译研讨会上发布。“丝路”包括以下模块: 语料预处理及后处理模块“仙人掌”、词语对齐模块“楼兰”、短语抽取模块“胡杨”、以及三个解码器（“骆驼”、“绿洲”和“商队”）。这是第一次将一个完整的统计机器翻译系统公开，极大地促进了国内统计机器翻译的快速发展。　　6.摩西（Moses）　　“摩西”是“法老”的升级版本，它增加了许多功能，是由英国爱丁堡大学、德国亚琛工业大学等八家单位联合开发的一个基于短语的统计机器翻译系统。来自这些单位的研究人员于2006年在约翰霍普金斯大学召开了一次研讨会，利用6个星期的时间共同开发了这一系统。整个系统用C++语言写成，从训练到解码完全开放源代码，可以运行在Windows平台和Linux平台。　　7.