- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于配价的汉语语义词典-北京大学中国语言学研究中心
*
基于配价的汉语语义词典
詹卫东 北京大学中文系
摘要 本文介绍一个主要是基于配价理论开发的汉语语义词典(Valency_based
Chinese Semantic Dictionary,文中简称 VCSD),分为四个方面:第一节简要交代这个研
究工作的背景;第二节具体阐述一个汉语语义知识的表达框架;第三节说明这部语义词典的
开发过程及目前达到的规模并展示若干样例;最后第四节是评价及对进一步研究工作的设
想。
一 背 景
VCSD 是源于开发 TransEasy 汉英机器翻译系统的实际需要而研制的,因此这部语义词
典有非常明确的实用目标。TransEasy 系统采用基于规则(rule_based)的路线,语言知识
主要由规则库(syntax)加词库(lexicon)两部分组成。最初的词库中对每个汉语词及其
对译的英语词都进行了语法信息描述(有关汉语词语语法信息的描述主要来自北京大学计算
语言学研究所开发的《现代汉语语法信息词典》)。在这个汉英机器翻译系统开发的过程中,
我们感觉到,计算机要分析得到汉语短语、句子的正确的结构,以及在多义词辨义时要能选
择准确的译词,仅有语法信息是不够的。很有必要补充更多的能够区分词语间不同用法的信
息。这样的信息通常也就是被人们称为“语义”信息的那部分语言知识。相应地,刻画词语
这部分信息的知识库也就称为“语义词典”。
事实上,关于语义知识的描述方式(从某种程度上就可以看作是语义词典的组织方式)
已经有格语法、配价语法、论旨理论、语义网络、语义特征描写、框架语义学等等不同的策
略可供选择。这些方式从理论上和具体操作上讲都有些不同的特点。在我们看来,语义信息
跟语法信息类似,也是用来描述一个词跟其他词的组合可能性的(包括能否组合,以及以什
么样的关系组合等等)。无论是语法理论也好,语义理论也好,直接目标实际上只有一个,
即把任意两个词(以及其他更大或更小的语言成分)之间可能存在的区别描述出来。比如“洗”
跟“晾”,这两个词在语法上有共性,都是“动词”,都能作谓语,带宾语,不能受数量词修
饰等等(这些实际上统统可以归结为“能否跟某些其他的语言成分组合搭配”)。但这两个词
又有区别,比如动词“晾”可以带“阳台上”这样的处所宾语,“洗”则不行。对计算机自
然语言处理来讲,“晾”跟“洗”的这些区别需要显性地加以刻画。通常人们就把有关“晾”
跟“洗”的上述差别的知识称为语义信息。很显然,语义信息比语法信息的概括度(或抽象
度)显得要“低”一些。像已有的格语法、配价语法等等语义描写理论,实际上都是在如何
刻画词语之间的这些差别上作文章罢了。各种理论所能期望的最好境界也无非是:以最适合
的概括度统摄最琐碎的有可能存在的区别。但现实情况往往不能尽如人意。人们会在“格语
法到底应该为一个语言确定几个格”,“配价语法到底应该怎么来算一个动词的价”等等问题
上争论不休,难有定论。
由此我们认为,(1)在本体论的层面构建一个人类自然语言的概念体系固然意义重大,
但从服务于句法分析这样实际的目的出发,仅在方法论的层面上考虑如何选择有效的语义范
畴,来区分那些最需要区分的词语之间的不同搭配特征,似乎更务实;(2)不同语义理论实
* 本文研究工作得到国家 863 项目支持(编号:863-306-03-06-2 )
际上应该有共同的追求,即描述任意两个语言成分之间的搭配可能性,譬如动词与名词之间,
形容词与名词之间,名词与名词之间,动词与形容词之间,动词与副词之间,……等等。但
限于客观条件,我们只能量力而行,集中力量描写某些词语之间的搭配关系。
二 汉语语义知识表示的一个理论框架:广义配价模式
VCSD 的语义知识表达框架基本采用了配价理论的模式,同时极大地简化了一般格语法
的语义角色系统。我们把这样的一个语义知识表达框架称为“广义配价模式”(Generalized
Valency Mode),包括下面四方面内容。
(一)语义分类体系
要对词语进行语义信息描述,首先需要有一个语义分类体系。语义分类的直接目的跟语
法分类一样,实际上也是为了说明一个词的分布(即一个词跟另一些词的搭配可能性),并
且可以使得描写词语的语义搭配能够在词对类的概括水平上进行。只不过语义分类
您可能关注的文档
- 基于卡尔曼滤波卫星三频信标仿真的分析研究.pdf
- 基于城电力消费间接排放的城温室气体清单与级温室-经济学.PDF
- 基于多种群协同优化的文本分类规则抽取方法-自动化学报.PDF
- 基于数字图像处理的等离子喷涂荦犻犆狉犆狉纳米压痕.pdf
- 基于新型关联规则算法的开关柜局放程度分类研究-高压电器.PDF
- 基于数字高程模型的森林火灾远程视频同步跟踪算法.pdf
- 基于无人机多传感器数据采集的电力线路安全巡检及智能.pdf
- 基于材料基因工程的二维层状半导体材料及应用研究2012016.PDF
- 基于流域结构分析的中国流域划分方案-OpenRepositoryofNational.PDF
- 基于温度信息的地表;地下水交互机制研究进展.pdf
文档评论(0)