- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
面向中日韩文智能信息检索的基于词典的异形词排歧
Lexicon-based Orthographic Disambiguation in CJK Intelligent Information Retrieval
Jack Halpern(春遍雀來)The CJK Dictionary Institute(日中韓辭典研究所)
〒352-0001 埼玉県新座市東北2-34-14 小峰ビル34-14, 2-chome, Tohoku, Niiza-shi, Saitama 352-0001, Japanjack@
摘要
中日韩文拼写的复杂性对于计算语言学工具的开发者,尤其是在智能信息检索方面,是一个特殊的挑战。由于这些语言没有标准的正字法,特别是由于日语拼写的高度不规则性,使这些困难变得更加突出。本文着重于中日韩文拼写变异的类型,对这一语言学问题做一个简要的分析并论述词汇数据库在排岐的过程中起重要作用的原因。
1引言
多方面的因素造成了中日韩文信息检索的困难。要达到真正的智能检索,必须克服众多的挑战。主要包括以下几个方面的问题:
拼写缺乏标准。在处理数量极其庞大的异体字(尤其是日文)和字符形式时,需要具备能够支持正字法检索之类的高级信息检索技术(Halpern 2000)。
中文简体与中文繁体之间的准确转换,这是一个看似简单,但实际上却极其困难的计算任务(Halpern and Kerman 1999)。
日文与韩文形态音位的复杂性对精确的形态分析工具的发展提出了巨大的挑战。形态分析工具能够实现以下几种操作:规范化、划分词干(去掉变化词尾)及形态素的异文合并(将多个形态变体减少为唯一的形式)
难于进行准确地分词,尤其是书写上没有词间距的中文和日文。包括为了词典检索及制作索引的目的,将文本流划分成有意义的语言单位来确定词的界限。这方面取得的较大进展Emerson(2000)和Yuetal(2000)都曾有过报导。
多重检索技术,如基于词位的检索(如take off+jacket 来自take off his jacket),依据造句法构成的短语的鉴别(例如:研究する来自研究した),同义字的扩充以及跨语言信息检索( CLIR)(Goto et al. 2001)。
多方面的技术要求例如多字符集之间的代码转换及编码,支持统一的字符编码标准,以及输入法的编辑器。大部分这方面的问题已经得到了满意地解决,正如Lunde(1999)所报告的那样。
专有名词是智能检索工具面对的重大难点。因为它们的数量特别多,如果没有词典,很难对其进行检查,并且其拼写很不稳定。
术语及其变体的自动识别,是一个复杂的题目,不在本文论述范围之内。Jacquemin(2001)对欧洲语言进行了这方面的详细描写,我们目前正在对中文和日文进行这方面的研究。
上述的每个问题都非常重要,都值得独立成篇专门论述。本文的重点是异形词排岐,这涉及到中日韩文异体字的处理、标准化及转换。文中总结了中日韩文书写变异的类型,简要分析了这些语言学问题,并论述了为什么词汇数据库应在排岐过程中起重要作用。
2 中文的书写变异
一种语言,两种写法
战后中国进行了语言文字改革,其结果是数以千计的汉字被大大地简化了(总表1986)。以简化形式书写的中文称作简体中文(SC)。台湾.香港以及大多数海外华人仍沿用传统的复杂形式,称作繁体中文(TC)。
中文书写体系的复杂性是众所周知的。造成这一结果的因素有:大量的汉字在共同使用,这些汉字具有复杂的形式,繁体与简体中文之间存在众多差别,繁体中文存在大量的异体字等。而这些大量的异体字和简体与繁体之间转换的困难对中文信息检索应用软件特别重要。
汉字简繁转换
从简体中文到繁体中文(或繁体中文到简体中文)的自动转换过程,被称作C2C(汉字简繁)转换,是充满复杂性及缺陷的。Halpern 和Kerman(1999)对这一语言学问题进行了详细的阐述, Lunde(1999)则描述了有关编码及字符集的技术问题,这一转换可以按照下面简要描述的三个递增的级别来实现。
2.2.1 码对转换
最容易,但又最不稳定的C2C转换方式是通过对应表,进行代码至代码的转换。如下表所示。这种转换叫做码对转换。由于存在大量的一个代码可以转换成多个代码的不明确的情况(简繁,繁简转换中都存在这一问题),转换的失败率很高。
表1. 码对转换 简体 繁体1 繁体2 繁体3 繁体4 备注 门 們 一对一 汤 湯 一对一 发 發 髮 一对多 暗 暗 闇 一对多 干 幹 乾 干 榦 一对多
2.2.2 字对转换
c2c转换的第二个级别叫做字对转换,因为被转换的是拼字单位,而不是字符集中的代码。更确切地说,被转化的是有意义的语言单位,特别是多字
文档评论(0)