- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文信息处理论文
中文信息处理
学号:
姓名:
班级:
时间:
浅谈中文信息处理之汉语自动分词
【摘 要】:汉语自动分词问题是中文信息处理技术发展的一大热点也是一大难点,对于自动分词研究的出发点的不同,其自动分词方法也是不一。自动分词给我们的日常的生活带来了便利,但同时也尚有一些急需解决的问题存在。
【关键词】:自动分词;中文信息处理;技术
中文信息处理是第一次接触的一门学科,几个月的学习下来对它也有了初步的一些了解。中文信息处理是自然语言信息处理的一个分支,是一门与等多种学科相关联的综合性学科,加工的结果形成各种信息处理系统,实现中文的信息检索、语音识别、机器翻译等。简单的说,中文信息处理就是解决汉字和汉语输入和输出电子计算机的问题的一门学科。笔者认为中文信息处理这门学科与其它的综合学科一样,内容繁多复杂,有一定的难度和复杂性,因此,我就几个月来所学的内容、课本以及一些对中文信息处理进行研究的学者的观点谈谈自己对汉语自动分词的看法。
众所周知,中文文本没有类似英文空格之类的标志来标示词的边界标志。由于汉语的书写形式不像西文,词与词之间没有间隔,所以就比西文的语言处理多了一道手续:自动分词。所谓汉语自动分词,是把输入计算机的汉语词句自动切分为词的序列的过程。汉语自动分词的任务我们用通俗的话来说,就是要由机器在中文文本中词与词之间自动加上空格。这样才能进行下一步的句法语义分析及处理。
(一)自动分词方法
根据对于自动分词研究的出发点的不同,目前较权威的观点来看大概可以归纳为三大类:基于词典的分词方法、基于统计的分词方法、基于AI 的分词方法。我们上课所学的主要是第二种,即基于统计的分词方法。因此,这里我主要谈谈基于统计的分词方法,其它两类简要概括一下。
1.基于词典的分词方法
这种分词方法是前苏联专家在上个世纪50 年代末提出来的。其基本思想是:事先建立一词库(词典),其中包含所有可能出现的词。对给定的待分词的汉字串S,按照某种确定的原则切取S的子串,若该子串与词库中的某词条相匹配,则该子串是词,继续分割剩余的部分,直到剩余部分为空;否则,该子串不是词,转上重新切取S的子串进行匹配。
这种分词方法又分为最大匹配法、逆向最大匹配法设立切分标志法逐词遍历匹配法正向最佳匹配法和逆向最佳匹配法
上面我已经谈到,中文文本没有类似英文空格之类的标志来标示词的边界标志。也就是说,词与词之间没有显著的分隔标记。而基于统计的分词方法就有一大优点,即能够有效地自动排除歧义,能够识别新词、怪词,例如人名、地名等,解决了基于词典的分词方法的弊端。
基于统计的分词方法是我们学习中文信息处理课程时主要讲的分词方法。这类方法的主要依据和思想是:词是稳定的字的组合,因此在上下文中,相邻的字同时出现的越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率就能够较好地反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计, 计算它们的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可以认为此字的组合可能构成了一个词。
北京大学计算语言学研究所在开发人民日报语料库时,确定了具体的切分规范。规范中的切分单位包括词和大于词或小于词而在文本中独立使用的固定短语、语素字、非语素字以及标点符号。对于切分单位从字数考虑,对两个字的组合较宽地看作是一个切分单位,三个字的较严,四个字以上的若不是成语、习惯用语一般不看作是一个切分单位。切分规范以国家标准为基础,适当加以调整。
但这种分词方法也有一定的局限性,会经常抽出一些共现频度高,但并不是词的常用字组, 例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差。
3.基于AI的分词方法
此类分词方法由于没有接触到,我也不了解,所以在此略过。
(二)自动分词问题
上面我简要介绍了三种自动分词方法,我们知道,尽管汉语自动分词取得了重大进展和突破,但仍然存在着大量的问题。比如汉语无词的明显分隔标记,词的定义、词与词组划界标准与形式语法的缺乏等特点, 使得要自由进行汉语自动分词,将会遇到一些困难与问题。
1.首先,就切分而言,中文原本没有词的概念,没有一个统一的词的确切定义。中文构词方法的多样性特点使得自动分词十分困难。汉字造词可以是字,也可以是词甚至词组。造句的方式有以字造词,以词造词。如果没有语法、语义知识或语境了解的帮助就很难对有些句子进行正确切分。
2.其次,汉语迄今为止仍未有一部公认的、确切完备的并适合于计算机自动处理的语法规则。汉语词法的无标准性,句法的复杂性,语法的模糊性与语义的多样性,如汉语中大量存在一词多义,多词一义,词性变化,词义转借等现象,使得研究中文信息处理的学者至
文档评论(0)