5单词与词组分析.ppt

  1. 1、本文档共86页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
例如“于山”如果是一个地名,那么加入词典中,则对“由于山区”的切分变成链长为 2 的交集歧义问题。因此,有必要研究中国地名特点、用字规律、用词规律、构词规律和地名的上下文规律,实现真实文本中中国地名的自动处理。 中国地名的特点,有一些对处理构成一定的难度。例如,中国地名的长度没有一定的限制,从一个到多个不等,像“京、津”这样的简称,长度为 1;而“北京”长度为 2,“内蒙古”长度为 3 等等。另外,汉语的常用字经常出现在地名之中,例如“大直街”、“马家沟”中的汉字都是常用字。此外,地名中含有的多字词也不利于地名的处理,例如“黄果树瀑布”中的“果树”本身就是一个词,这肯定增加了难度。 但是,中国地名的处理过程中也有可以利用的信息,例如一些后缀有利于地名的处理,像“乡、村、市、县”等。 对于地名的处理,虽然已经有不少的方法,但是一般可以采用统计与规则相结合的方法,现在举例说明如下: (1)先建立一个包括省、自治区、直辖市、市、县、区、镇、乡、村,以及山脉、河流、湖泊、峡谷、岛屿等等的中国地名库,收集尽可能多的地名。越多、越详细越好,这将为以后的高质量机器翻译打下好的基础。 (2)可以先统计出地名库中地名用字以及地名的首、中、尾用字规律及频率,然后再建立地名用字库,最后统计出地名用字库中各个字用做地名的首字、地名的中间字、地名的尾字的概率。这里面主要采用统计的方法。 (3) 采用某一分词方法进行分词。 (4)对于那些单字词,如果它确实属于地名用字库,则可以激活地名处理过程。先去寻找占据中文地名首字的词或者字,然后再寻找中间的和末尾的字或者词。 利用字频和中文地名用字的统计规律确定中文地名的边界。 (5)在地名初步处理结束以后,可以进一步调整其正确率。比如对于 连续的地名“黑龙江省哈尔滨市”,应该将它们分开。对于连续地名的分开可以 采用如下的两种方法: [1] 我们可以使用规则进行处理。中文名的末尾字“省、市、县、乡、村”等等 都有很强的显性特征可以方便地用于地名的右边界,所以我们可以以它们为关 键字,然后采用规则的方法加以处理。当然,还有其他的规律可以采用规则表 示出来,并且也可以用于地名处理的过程之中。这一类方法采用得非常之多。 [2] 我们可以利用概论的和方法。对于初步处理的连续地名 P=C1 C2 ……Cn,可以通过以下公式计算其权值: 权值 F(C1 C2 ……Cn)= 地名首字(C1)的概率+中间各字作为地名中间字概率的和 + 地名尾字(Cn)的概率 对于任意的 i, i∈(1~ n), 如果 F(C1 C2 ……Ci)+ F(Ci+1 Ci+2 …… Cn) F(C1 C2 …… Cn) 则 i为连续地名串C1 C2 …… Cn的分割点。 5 . 5 . 4 外国译名的处理 在汉语分词的过程中,如果文本中存在不能被检索的外国译名,则要么造成句子被割裂,要么就会出现错误。 见下面的例子: 埃及/总理/穆/巴/拉/克/访问/叙利亚。 国际/田联/取/消费/尔/南/多/参赛/的/资格。 由此可见,外国译名的处理也是自动分词中不可缺少的一部分。 我们对于外国译名的处理类似于中国地名的处理,但是要注意外国译名的处理也有它自己的特点。首先,外国译名的用字就比中国地名用字比较有规律,而且用字比中文地名少;其次,译文中含有多字词,如“威廉明娜”等。 人们对于外国译名的处理,大多数都采取统计的方法,但是在处理过程中也可以利用上下文的信息。 以下是外国译名处理的一种方法: 首先建立外国译名库,然后对库中的外国译名进行统计,得到外国译名用字表以及各个外国译名用字用于首、中、尾的概率,然后采取某种分词方法进行分词,在这一分词过程中激活外国译名的处理次序进行处理。 对于连续的汉字串,先进行译名粗界定,即对于一个连续汉字串,如果它的每个字都属于外国译名用字,机器程序则可以认为该串汉字为外国译名。然后,再采用上下文进行处理,使之得到翻译较为满意的结果。 例如,有这样的句子: 英国首相撒切尔夫人来访。 借助于称谓机器程序很容易处理为“撒切尔”为外国译名,这里就要求有一张称谓表或者词典中有关于称谓的标志。 又如,有这样的句子: 约翰·史密斯将来中国。 对于这样连续的汉字串,如果在其之间有一个“·”,机器程序

文档评论(0)

junjun37473 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档