网站大量收购独家精品文档,联系QQ:2885784924

基于模板匹配的面向奥运的信息发布系统-自然语言处理.DOC

基于模板匹配的面向奥运的信息发布系统-自然语言处理.DOC

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
面向奥运的汉英RBMT与EBMT研究 蒋宏飞 蒋宏飞,男,1982年生,在读硕士研究生,主要研究方向是机器翻译。 蒋宏飞,男,1982年生,在读硕士研究生,主要研究方向是机器翻译。 (哈尔滨工业大学计算机科学与技术学院,哈尔滨 150001) 摘要:介绍了采用基于实例的方法和基于规则的方法在面向奥运的汉英机器翻译系统的必威体育精装版进展。揭示了二者不同的翻译处理过程和翻译知识学习机制。通过2003年和2005年两次863汉英测试的结果比较了二者的性能差别。采用4元Bleu指标作为评分标准,在2005年863评测中RBMT系统的篇章类得分为0.1056,对话类得分为0.1714;EBMT系统的篇章类得分为0.0718,对话类得分为0.1454。 关键词: 机器翻译、规则、实例 Olympics Oriented RBMT vs EBMT Jiang Hongfei Yang Muyun Zhao Tiejun (School of Computer Science and Technology, Harbin Institute of Technology Harbin 150001) Abstract: This paper presents the latest progress in example-based method and rule-based method for Olympic oriented Chinese-English machine translation. It further describes the detailed translation knowledge modeling and translation operation. Experiments on the 863 test-set in 2003 and 2005 reveal their performance differences. Using BLEU as a metric, the RBMT system achieves 0.1056 in the essay category and 0.1714 in the dialogue category while the EBMT system gets 0.0718 and 0.1454 respectively. Keywords: machine translation, rule, example 1 语言资源和工具 哈尔滨工业大学机器智能与翻译研究室分别采用基于规则和基于实例的方法开发了汉英机器翻译系统。在这两个系统开发中均采用了以下语言资源和语言分析工具: 汉英翻译词典:共有88,373个词条,提供了汉语词性、名词的简单语义信息、英语译文等信息。该词典提供汉语分词时所需的词表,并提供汉英翻译所需的译文。其中汉语词性符号共计53个,其中10用于汉语标点符号。 汉语分词-词性标注工具:主要技术采用了HMM,并在处理过程中采用了多步处理技术,细节详见文献[1]。 名实体识别:系统中没有独立的名实体识别模块。但是在分词过程中针对人名、地名和外国译名进行了未登录词识别,详细细节但见文献[2]。对于时间、机构短语则留给句法分析模块识别。 汉语句法分析:该工具采用基于头驱动的PCFG模型,训练语料为本单位开发的2万句汉语树库,详细细节参见文献[3]。 汉英自动词对齐:词对齐工具使用了包含81818个词条的英汉对译词典,汉语分词采用了上面介绍的工具。具体对齐过程采用了统计和词典相结合的方法,细节详见文献[4]。该工具在今年的863汉英词对齐评测结果为:精确率80.87%,召回率72.20%, F值0.7629。 图1给出了词对齐输入输出的一个示例,其中对齐部分中(x:y)表示第x个英语词对应第y个汉语词。 输入: 10 dollars is for opening the trunk. 10美元是开行李箱的费用。 20 pounds a week, including breakfast. 一周20磅,包括早饭。 输出: 10/1 dollars/2 is/3 for/4 opening/5 the/6 trunk/7 ./8 10/1 美元/2 是/3 开/4 行李箱/5 的/6 费用/7 。/8 (1:1); (2:2); (3:3); (5:4); (8:8); 20/1 pounds/2 a/3 week/4 ,/5 including/6 breakfast/7 ./8 一/1 周/2 20/3 磅/4 ,/5 包括/6 早饭/7 。/8 (1:3); (2:4); (3:1); (4:2); (5:5); (6:6); (7:7); (8:8); 图1. 词对齐

您可能关注的文档

文档评论(0)

fengruiling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档