一种基于E-Chunk的机器翻译模型A.PDFVIP

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于E-Chunk的机器翻译模型A.PDF

1000-9825/2002/13(04)0669-08 ©2002 Journal of Software 软 件 学 报 Vol.13, No.4 一种基于E-Chunk 的机器翻译模型 李 沐, 吕学强, 姚天顺 (东北大学 计算机科学与工程研究所,辽宁 沈阳 110004) E-mail: ics@ 摘要: 提出了一种基于E-Chunk 的多引擎机器翻译模型.该模型以中心语驱动的分析技术为基础,通过词汇相似 特征计算E-Chunk 的匹配代价, 自底向上地完成最优E-Chunk 覆盖的构造,并以E-Chunk 为基本翻译单元完成 机器翻译过程.初步的实验结果显示,该方法在面向领域文本的自动翻译方面是有效的. 关 键 词: E-Chunk;机器翻译;词汇相似计算 中图法分类号: TP 18 文献标识码: A 随着信息技术的迅速发展和对真实文本处理需求的急剧增长,基于规则系统的机器翻译方法正面临着日 [1] [2] 益严重的困境和挑战 ,而以基于实例的机器翻译 (example based machine translation,简称EBMT)技术为代表 的经验主义方法则成为近期机器翻译研究中的一个重要趋势.现在已经有了很多 EBMT 方法的变体和扩展,其 [3] [4] [3] 中较重要的方面包括加标实例的使用 、实例的模板化 和将类比的基本单元由句子细化为片断 . 与经验主义理论的实证哲学观不同,Chunk 是一种基于心理语言学模型的计算语言学文本结构单元[5] .来 自心理语言学和韵律学的研究数据显示,这种文本结构单元具有结构上的稳定性与功能上的无歧义性.Abney 的实验表明,基于 Chunk 的有限状态级联分析技术在处理非受限真实文本方面,其精确性和健壮性都是十分优 [6] 秀的 . 本文目的在于将作为 Chunk 理论基础的心理语言学假设引入到机器翻译的研究领域,即如果我们把人类 的翻译过程相应地解释为一个双语性能词群的选取和重新组合过程,那么,机器翻译中的基本处理单元也应该 是一组高度相关的、具有相对稳定的句法结构和内部语义自解释能力的词汇的集合.我们将这种机器翻译的基 本处理单元称为E-Chunk(extended chunk).基于E-Chunk 机器翻译模型的基本框架就是以E-Chunk 作为EBMT 中双语实例知识的基本表示单元,在由源语句法和双语 E-Chunk 知识库共同定义的有哪些信誉好的足球投注网站空间中查找输入句子 的最佳匹配 E-Chunk 集合, 并通过结果集中的双语 E-Chunk 实例完成对翻译转换和目标语生成过程的 驱动. 1 翻译模型 1.1 E-Chunk 的基本概念 机器翻译模型中的双语 E-Chunk 在单语 E-Chunk 的基础上定义.每个单语 E-Chunk 可以形式化地表示为 一个四元组:EC=T,h,l,r,其中T 为EC 的句法标记,h 为中心词,l 和r 分别为由h 左、右两侧依存子结点构成的 收稿日期: 2000-08-21; 修改日期: 2000-12-19 基金项目: 国家自然科学基金资助项目; 国家重点基础研究 973 资助项目(G;国家教育部博士点基金 资助项目(1999014503) 作者简介: 李沐(1972 -), 男,辽宁辽阳人,博士,副研究员,主要研究领域为自然语言处理; 吕学强(1970 -), 男,辽宁抚顺人,博士 生,讲师,主要研究领域为机器翻译;姚天顺(1934 -), 男,江苏苏州人,教授,博士生导师,主要研究领域为自然语言处理,信息检索,机器 翻译. 670 Journal of Software 软件学报 2002,13(4) [7] 有序线性列表.双语E-Chunk 知识库依据词汇主义 的原则构造,称为双语E-Chunk 词典.词典中

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档