基于格助词和接续特征的藏文自动分词方案中国语言文字网.docVIP

下载本文档

7
0
约9.04千字
约 8页
2017-08-20 发布于重庆
举报
版权申诉

基于格助词和接续特征的藏文自动分词方案中国语言文字网.doc

1、本文档共8页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于格助词和接续特征的藏文自动分词方案中国语言文字网.doc

基于格助词和接续特征的藏文自动分词方案* 陈玉忠李保利俞士汶兰措吉1 （北京大学计算语言研究所北京 100871）（青海师范大学西宁 810008）1 摘要：本文结合藏文各类形态特征，首次提出了一种基于格助词和接续特征(BCCF, Based on Case-auxiliary word and Continuous Feature)的书面藏文自动分词方案。其总体技术特点是：在格助词、接续特征、字性知识库以及词典支持下，进行逐级定位的确定性分词。初步测试表明：这一方案在发现和消除切分歧义、解决未登录词问题，进而在提高藏文分词精度方面具有很高的实用价值。关键词：格助词；接续特征；藏文分词 1. 引言随着对语言信息处理研究工作的不断深入，藏文信息处理技术也从文字处理逐步转向语言信息处理。与汉语、日语等语种的信息处理一样，藏文自动分词是藏文信息处理中一项不可缺少的基础性工作。书面藏文分词问题解决的好坏，直接制约着藏文词频统计工程、藏外机器翻译等高层藏文信息处理技术的进一步发展。因而，设计并实现实用化的书面藏文自动分词系统已势在必行。同时，结合藏文特点开展的分词研究，反过来对其他语言的分词研究也具有非常重要的参考价值。藏文分词研究目前是一片空白，借鉴亲属语言汉语分词研究的已有成果和成功经验，无疑对把握分词问题的本质，针对性地开展藏文分词研究有重要的指导意义。迄今为止，汉语分词方面已提出了许多极有价值的分词方案[2]。从所采用的分词方法来看，这些方案大致上可分为两大类，即统计方法和规则方法。统计方法是先建立一个自动分词统计模型[3]，获取模型的各组参数，然后从各种可能的词串中挑选概率最高的词串作为输出结果。而规则方法是利用词表和规则，采用一定的算法，拿文本中的候选词去跟词表中的词匹配。匹配成功且符合规则要求，则将候选词确定为词并予以切分输出。不论是统计方法还是规则方法都存在两大难题：一是歧义切分问题，二是未登录词问题[4]。通过对不同方案的对比分析使我们认识到，不同的分词方案模拟了人类分词行为的不同侧面，都存在各自的切分盲点，也就是说分词精度与分词方案有关。为此，我们认为，在目前的情况下，藏文分词的首要任务是研究并提出符合藏文特性的最佳分词方案，以提高分词系统的切分精度和通用性，进而尽可能地逼近人们所期望的各类分词应用需求。衡量实用化书面藏语分词系统的关键指标是系统切分精度。切分精度通常以切分正确率来衡量[1]，切分正确率愈高表示切分精度愈高，反之亦然。由于分词精度直接关乎系统的正确性、科学性以及整体性能，因此，提高切分精度自然就成为了整个藏文分词系统设计、实现过程中的一个关键点和核心问题。本文包括如下几部分：第二、三部分首先分析了藏文文本自动分词的难点以及藏文文本的特点，在分析比较了两种基本的分词方法——最大匹配法和格助词分词法的基础上，第四部分提出了基于格助词和接续特征的书面藏文分词方案，最后给出了实验结果以及进一步工作的设想。 2．藏文文本自动切分的难点探析自从80年代初中文信息领域提出自动分词以来，虽然经过有关方面的众多专家、学者为之付出了不懈的努力，但还未研制出一个与人们的期望相一致的通用的实用系统，这从一个侧面说明了自动分词问题所固有的复杂性。结合藏文的特点，我们首次提出了一种基于格助词和接续特征（BCCF, Based on Case-auxiliary word and Continuous Feature）为主的分词方案，所采用的方法本质上属于“规则+特征”的方法。为了说明这一方案的有效性和实用性，首先有必要对规则分词和格助词分词在藏文分词中引起的错误切分类型作一番实际考察。 2.1 规则分词法及其切分难点分析规则分词通常采用最大匹配算法，其最大优点是算法简单、容易实现。那么，这一分词方法在藏文中会引起哪些歧义错误，存在哪些切分难点呢？我们通过对5900个词的（500句的综合语料）实际切分发现，采用这一方法后引起的切分错误共有750次，占语料总词数的12.71%。主要错误类型及其所占比例如下： Ⅰ.交集型歧义错误442次，占整个切分错误的58.93%，典型实例见(1)。其中“/”表示正确切分序列，“+”表示错误切分处，“+/”表示该处未能正确切分（下同）。 Ⅱ.组合型歧义错误212次，占整个切分错误的28.27%，实例见(2)。 Ⅲ.紧缩格（见下文说明）识别错误52次，占整个切分错误的6.93%，实例见(3)。 Ⅳ.未登录词切分错误44次，占整个切分错误的5.87%，实例见(4)。在此基础上，我们对引起以上四类错误切分的根源作了进一步考察后发现： Ⅰ类切分错误主要由实词-实词、实词-虚词、虚词-实词和虚词-虚词四类词的交集型字段产生。其中，实-虚和虚-实这两类交集性字段产生的错误可以用