- 1、本文档共86页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
例如“于山”如果是一个地名,那么加入词典中,则对“由于山区”的切分变成链长为 2 的交集歧义问题。因此,有必要研究中国地名特点、用字规律、用词规律、构词规律和地名的上下文规律,实现真实文本中中国地名的自动处理。 中国地名的特点,有一些对处理构成一定的难度。例如,中国地名的长度没有一定的限制,从一个到多个不等,像“京、津”这样的简称,长度为 1;而“北京”长度为 2,“内蒙古”长度为 3 等等。另外,汉语的常用字经常出现在地名之中,例如“大直街”、“马家沟”中的汉字都是常用字。此外,地名中含有的多字词也不利于地名的处理,例如“黄果树瀑布”中的“果树”本身就是一个词,这肯定增加了难度。 但是,中国地名的处理过程中也有可以利用的信息,例如一些后缀有利于地名的处理,像“乡、村、市、县”等。 对于地名的处理,虽然已经有不少的方法,但是一般可以采用统计与规则相结合的方法,现在举例说明如下: (1)先建立一个包括省、自治区、直辖市、市、县、区、镇、乡、村,以及山脉、河流、湖泊、峡谷、岛屿等等的中国地名库,收集尽可能多的地名。越多、越详细越好,这将为以后的高质量机器翻译打下好的基础。 (2)可以先统计出地名库中地名用字以及地名的首、中、尾用字规律及频率,然后再建立地名用字库,最后统计出地名用字库中各个字用做地名的首字、地名的中间字、地名的尾字的概率。这里面主要采用统计的方法。 (3) 采用某一分词方法进行分词。 (4)对于那些单字词,如果它确实属于地名用字库,则可以激活地名处理过程。先去寻找占据中文地名首字的词或者字,然后再寻找中间的和末尾的字或者词。 利用字频和中文地名用字的统计规律确定中文地名的边界。 (5)在地名初步处理结束以后,可以进一步调整其正确率。比如对于 连续的地名“黑龙江省哈尔滨市”,应该将它们分开。对于连续地名的分开可以 采用如下的两种方法: [1] 我们可以使用规则进行处理。中文名的末尾字“省、市、县、乡、村”等等 都有很强的显性特征可以方便地用于地名的右边界,所以我们可以以它们为关 键字,然后采用规则的方法加以处理。当然,还有其他的规律可以采用规则表 示出来,并且也可以用于地名处理的过程之中。这一类方法采用得非常之多。 [2] 我们可以利用概论的和方法。对于初步处理的连续地名 P=C1 C2 ……Cn,可以通过以下公式计算其权值: 权值 F(C1 C2 ……Cn)= 地名首字(C1)的概率+中间各字作为地名中间字概率的和 + 地名尾字(Cn)的概率 对于任意的 i, i∈(1~ n), 如果 F(C1 C2 ……Ci)+ F(Ci+1 Ci+2 …… Cn) F(C1 C2 …… Cn) 则 i为连续地名串C1 C2 …… Cn的分割点。 5 . 5 . 4 外国译名的处理 在汉语分词的过程中,如果文本中存在不能被检索的外国译名,则要么造成句子被割裂,要么就会出现错误。 见下面的例子: 埃及/总理/穆/巴/拉/克/访问/叙利亚。 国际/田联/取/消费/尔/南/多/参赛/的/资格。 由此可见,外国译名的处理也是自动分词中不可缺少的一部分。 我们对于外国译名的处理类似于中国地名的处理,但是要注意外国译名的处理也有它自己的特点。首先,外国译名的用字就比中国地名用字比较有规律,而且用字比中文地名少;其次,译文中含有多字词,如“威廉明娜”等。 人们对于外国译名的处理,大多数都采取统计的方法,但是在处理过程中也可以利用上下文的信息。 以下是外国译名处理的一种方法: 首先建立外国译名库,然后对库中的外国译名进行统计,得到外国译名用字表以及各个外国译名用字用于首、中、尾的概率,然后采取某种分词方法进行分词,在这一分词过程中激活外国译名的处理次序进行处理。 对于连续的汉字串,先进行译名粗界定,即对于一个连续汉字串,如果它的每个字都属于外国译名用字,机器程序则可以认为该串汉字为外国译名。然后,再采用上下文进行处理,使之得到翻译较为满意的结果。 例如,有这样的句子: 英国首相撒切尔夫人来访。 借助于称谓机器程序很容易处理为“撒切尔”为外国译名,这里就要求有一张称谓表或者词典中有关于称谓的标志。 又如,有这样的句子: 约翰·史密斯将来中国。 对于这样连续的汉字串,如果在其之间有一个“·”,机器程序
您可能关注的文档
- 5.2非谐晶体相互作用.ppt
- 互联网产品知识介绍.x.ppt
- 《琵琶行》与古诗文中描写音乐之比较.ppt
- 5.4混频器电路设计实例.ppt
- 《生活与哲学》学习课件:第五课意识的本质.ppt
- 《生活与哲学》第十课教学课件.ppt
- 《电子商务英语教程》-Unit2.ppt
- 5.5植物生长发育的调节.ppt
- 《疯狂的赛车》推广案.ppt
- 5.5中国河流和湖泊.ppt
- 2023-2024学年广东省深圳市龙岗区高二(上)期末物理试卷(含答案).pdf
- 2023-2024学年贵州省贵阳市普通中学高一(下)期末物理试卷(含答案).pdf
- 21.《大自然的声音》课件(共45张PPT).pptx
- 2023年江西省吉安市吉安县小升初数学试卷(含答案).pdf
- 2024-2025学年广东省清远市九校联考高一(上)期中物理试卷(含答案).pdf
- 广东省珠海市六校联考2024-2025学年高二上学期11月期中考试语文试题.pdf
- 2024-2025学年语文六年级上册第4单元-单元素养测试(含答案).pdf
- 2024-2025学年重庆八中高三(上)月考物理试卷(10月份)(含答案).pdf
- 安徽省安庆市潜山市北片学校联考2024-2025学年七年级上学期期中生物学试题(含答案).pdf
- 贵州省部分校2024-2025学年九年级上学期期中联考数学试题(含答案).pdf
最近下载
- 2023年华东师范大学数据科学与大数据技术专业《操作系统》科目期末试卷A(有答案).docx VIP
- 2023年华东师范大学数据科学与大数据技术专业《操作系统》科目期末试卷B(有答案).docx VIP
- 2023年华东师范大学计算机科学与技术专业《操作系统》科目期末试卷A(有答案).docx VIP
- 人防通风系统安装施工方案管理文档.doc
- 标准图集 - 12J003 室外工程.pdf VIP
- 北师大版六年级数学上册3-3《天安门广场》教学设计.doc
- 东北财经大学通用PPT模板.pptx
- 屋盖钢结构设计讲课教案.pdf VIP
- 社会情感教育与教学质量改进.pptx
- 2024年华医网继续教育护理学基于循证理念的临床护理管理实践新进展题库及答案.docx VIP
文档评论(0)