以待翻译句为导向的实例模式泛化算法.docVIP

以待翻译句为导向的实例模式泛化算法.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
以待翻译句为导向的实例模式泛化算法.doc

大规模句子相似度计算方法* 黄河燕1 陈肇雄1 张孝飞1 张克亮1,2 (1中国科学院计算机语言信息工程研究中心 北京 100083 2 南京理工大学 南京 210094) Email: heyan.huang@263.net xiaofei_ustc@ 摘要:如何根据源语言文本从大规模语料库中找出其最相近的翻译实例,即句子相似度计算,是基于实例翻译方法的关键问题之一。本文提出一种多层次句子相似度计算方法:首先基于句子的词表层特征和信息熵从大规模语料库中选择出少量候选实例,然后针对这些候选实例进行泛化匹配,从而计算出相似句子。在多策略机器翻译系统IHSMTS中的实验表明,当语料规模为20万英汉句对时,系统提取相似句子的召回率达96%,准确率达90%,充分说明了本文算法的有效性。 关键词:句子相似度;基于实例的机器翻译; 多策略机器翻译;泛化匹配 中图法分类号:TP391 Approach of Large-Scale Sentence Similarity Computation HUANG He-yan CHEN Zhao-xiong ZHANG Xiao-fei (Research Center of Computer Language Information Engineering, CAS Beijing 100083) Email: heyan.huang@263.net xiaofei_ustc@ Abstract: The retrieval of the similar translation examples corresponding to the SL sentence from the large-scale corpora, or the computation of sentence similarity, is one of the key problems of EBMT. A new multi-layer sentence similarity computation approach is proposed in this paper. First, a few candidate translation examples are selected form a large-scale corpus on the basis of the surface features and entropies of the given words. Second, the degree of generalization match between the input sentence and each of those candidate translation examples is computed respectively. Finally, the sentence similarity is computed according to the outcomes of the previous two steps. Experimental results from tests on IHSMTS show that this approach has a recall rate of 96% and a precision rate of 90% when applied to a corpus of 200,000 English-Chinese sentence pairs. Key words: sentence similarity; example-based machine translation; hybrid-strategy machine translation; generalization matching 1 引言 基于实例的机器翻译EBMT(Example-based machine translation)的基本思路是:预先构造由双语对照的翻译单元对组成的语料库,然后翻译过程选择一个有哪些信誉好的足球投注网站和匹配算法,在语料库中寻找最优匹配单元对,最后根据例句的译文构造出当前所翻译单元的译文[1]。如何根据源语言文本找出其最相近的翻译实例,是基于实例翻译方法的关键问题之一。尤其是实用的EBMT系统所需要的翻译实例库都非常大,一般在百万级乃至千万级双语句对以上[2]。因此,如何从这么大的一个语料库库中高效地计算出相似的翻译实例,提供给后面的双语词对齐、类比翻译处理等模块,是影响EBMT系统翻译能否成功的关键因素之一。因为得不到有效的相似实例,其结果只有一个:导致EBMT翻译失败(或生成的译文质量很差)。 目前计算句子相似度的方法主要有:基于N元模型的方法[

文档评论(0)

天马行空 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档