【优质】一个汉英机器翻译系统的计算模型与语言模型.docVIP

下载本文档

3
0
约5.42千字
约 7页
2015-12-17 发布于宁夏
举报
版权申诉

【优质】一个汉英机器翻译系统的计算模型与语言模型.doc

1、本文档共7页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

【优质】一个汉英机器翻译系统的计算模型与语言模型.doc

一个汉英机器翻译系统的计算模型与语言模型摘要：本文介绍我们所设计并实现的一个汉英机器翻译系统。在概要介绍本系统的主要目标和设计原则的基础上，着重说明系统的计算模型和语言模型，最后给出实验结果和进一步的打算。关键词：自然语言处理机器翻译中文信息处理一、引言我国的机器翻译研究近年来取得了很大的发展。特别是英汉机器翻译系统的研制已经取得了较大的成功，达到了初步实用的阶段。相对而言，汉英机器翻译的研究却进展比较缓慢，离实用化还有相当的距离[1]。我们的目的是利用目前必威体育精装版的计算机软件技术、相对成熟的机器翻译方法和先进的汉语语法理论，构造一个初步实用的汉英机器翻译系统。本文将对我们所开发的系统所采用的计算模型和语言模型作一个总体性的介绍，而不涉及过多的细节。下面我们简要介绍一下本系统的几个主要设计原则： ⑴ 采用成熟的技术我们的目的是构造一个真正实用的汉英机器翻译系统，因而在可供选择的若干技术路线面前，我们将尽量选用比较成熟的技术，而在现有技术难以解决问题时再尝试一些新技术。 ⑵ 开放的体系结构开放的体系结构主要体现在系统的实现上所采用的软件构件技术[8]。整个系统采用一些相对独立的软件构件组成，因而可以方便地对系统进行修改、维护和扩充。翻译的过程严格按照独立分析、独立生成的原则进行组织，每一阶段的算法相互独立，对其中一个阶段算法的修改不会对其他算法造成影响。 ⑶ 方便的调试环境本系统强调为语言工作者提供一个方便的调试环境。系统提供多窗口图形界面的知识库调试工具，支持课题组中多人同时通过网络对一个知识库进行操作。提供对翻译过程直观显示，用户可以清晰地看到翻译过程的每一步操作。提供翻译出错原因查找机制，用户可以轻松确定翻译出错的位置。机器翻译系统可依据不同的标准进行分类，这些标准也刻划出本系统的一些基本特点：规则方法与语料库方法规则方法发展到今天，相对来说已比较成熟，但由于专家描述的规则知识通常颗粒度较大，不利于处理大量的细节，因而在处理大规模的开放语料时，遇到了难以克服的困难；而从预料库中获取的知识颗粒度较小，在自然语言处理的某些方面取得了成功，但纯粹基于语料库的的机器翻译系统，还没有比较成功的例子。本系统目前采用的是基于规则的技术，我们计划将其扩展成为一个规则方法与语料库方法相结合的系统。转换方法与中间语言方法从理论上说，在实现多种语言互译的机器翻译系统时，中间语言方法可以节省很多的工作量。但从已实现的系统来看，使用转换方法较易取得成功。本系统也采用转换方法。确定性算法与不确定性算法确定性算法的优点是算法较为简单，翻译速度快，缺点是不能提供回溯的能力，翻译过程任何一步的错误将导致整个翻译的失败。不确定算法刚好相反。本系统采用不确定性算法，翻译过程的每一步骤都是不确定的，都可以回溯。二、计算模型我们从系统结构、知识表示、翻译算法三方面来介绍我们所采用的计算模型。 1、系统结构系统总体结构如图1所示。 2、知识表示机器翻译的过程可以看成是一个运用知识进行推理的过程。知识表示是这一过程的基础。我们把机器翻译中用到的知识表示形式分为内部知识和外部知识两类。其中外部知识是存放于知识库之中，由语言工作者进行管理的知识，如词典和各类规则库等，内部知识是翻译过程中临时生成的，用于描述所翻译的句子的语法语义特征的知识，如树形图、特征结构和语义网络等。本系统的外部知识表示由知识库子系统进行处理。知识库包括一个语言模型、一部词典、多个规则库和一个实例库。本系统设计的严格的语言模型起统帅作用，其中规定了本系统所使用的源语言和目标语言的词法模型、句法模型和语义模型，即词法、句法和语义的分类和各种属性描述。所有知识库中所用到的各种语言知识描述用的符号格式都必须符合语言模型中的规定。整个系统使用一部双语词典。多个规则库对应于翻译的各个步骤，每个步骤使用相应的规则库。每个规则库的具体格式各不相同，但基本上都采用“树结构+约束”的形式。在知识库的格式定义上，我们特别强调不仅要能描述全局性知识，也要能描述一些局部性的知识。因此我们特别强调词典的描述能力。例如，词典中的局部规则与全局规则具有完全相同的格式，在使用上局部规则优先于全局规则，这样特别有利处理一些与具体词相关的特殊用法。实例库用于存放系统翻译过的句子及其相关信息。本系统的内部知识表示形式包括线图(Chart)、树结构和特征网络三种形式。线图源于Chart Parsing算法，是一种比较通用的语言内部结构表示方法，可以同时表示翻译过程中产生的大量词结点和短语结点，也可以适应多种不同的分析算法。树结构是短语结构分析中最常用的一种表示方法，用于描述句法成分（包括词结点和短语结点）之间的组合关系。每个树结点对应于线图中的一个词结点或短语结点。我们所使用的树