HNC两类延伸对词汇语义学的贡献.ppt

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
HNC两类延伸对词汇语义学的贡献 池毓焕 2007.10.24 目次 传统词汇语义学关于词义关系的描写 HNC两类延伸概貌 与传统词义关系的比较 对偶性表示的发展 运用 一、传统词汇语义学关于词义关系的描写 Lexical relation: Inclusion(hypernym-hyponym) special: meronymy Sameness(synonymy) Opposition(antonymy) : complementary opposites//gradable antonym(contrary)//relational opposition ——K.M.Jaszczolt: Semantics and Pragmatics WordNet v2.1建设规模 同义集Synset:囊括了117,597个同义集。WordNet描述的最基本的语义关系就是同义关系。 同义之外的语义关系对:定义了373,330对。构成不同的其他语义关系定义于同义集之上。 名词同义集,包括上下位(hypernym-hyponym)、整体-部分(holonym-meronym,再分成员、成份和构件三子类)、反义(antonym)、属性(attribute)、派生(derivational)及话题(topic)、区域(region)和语用(usage)等; 动词同义集,增加了制约(entailment)、因果(cause)、参见(also see)、群组(verb group)四类; 形容词同义集,增加了相似(similar to)、分词(participle of verb)、附着(pertain to noun)三类。 义项数:207,016个,其中单义词128,321个、多义词27,006个。 WordNet v2.1定义的话题Topic 定义了427个话题,如WordNet、Zen、Tao、Aristotle等。 通过定义6534个话题成员关系而把分布在不同语义场中的相关词语通过话题联系在一起。 有6322个同义集是话题成员=有187个同义集是多个话题的共有成员,如passenger(5)、rally(4)、winger(4)、bishop(3)等。 话题拥有成员数排名前六位的是:法律(595)、军事(371)、化学(205)、计算机科学(194)、希腊神话(191)和生物学(170); 34.19%话题只有一个成员,而网球话题虽有11个成员,但仍未包括网球手、网球场、网、拍等内容。 WordNet v2.1定义的区域Zone 共定义了161个区域名称同义集、1327个区域关系对。 拥有成员数排名前六位的是:英国(518)、美国(70)、法国(49)、日本(34)、苏格兰(30)和希腊(29),垫底的诸如纽约、新疆、沙特、波斯等共86个区域只拥有一个成员。 中国的成员数是21,包括:阴、阳、气、风水、针灸、春卷、文化大革命、红卫兵、法轮功、鸭绿江、杭州、贝聿铭等。 WordNet试图把有中国特色的特定词语与中国相联系,但毛泽东、周恩来、北京、上海、长江、黄河等等并未定义中国区域关系,可见实际上是挂一漏万。 WordNet目标定位 顾名思义,WordNet的基本单位是英语单词,英语词汇中的各种语义关系构成一个网络,对其进行描述就成了WordNet的基本工作。 WordNet小心翼翼地坚守Word阵地, 既不深入到义素分析中的义原(primitive)或概念, 也不扩展到超越单词层面的脚本(script)或框架(frame), 甚至要与传统词典(dictionary)或义类辞典(thesaurus)划清界限。 对WordNet的简评 把名词//动词//形容词//副词分作四个单独的库,而其他词类置之不理,这不是对语言空间的全面描述。 词汇义项动辄上十万,要描述其中的关系,如果关系类型又是几十上百种,数据规模有失控的危险。 有关Usage//Topic//Zone的定义,仍视作语义关系之一种,已有脚本(script)或框架(frame)的影子,但从现有的量上看还是缺得太多。 对词义关系的分类要服务于应用,而WordNet的理论基础是朴素的,没有相应的理论架构支撑。 二、HNC两类延伸概貌 第一类对偶示例 00m吸引与排斥; 0099m合成与分解; 10m确定过程与随机过程; 10n连续过程与离散过程; 12m源与流; 20m跨、入、出; 31m出现与消失; 32m利与害; 33m显隐; 34m增与减; 343m提高与降低; 35m改动、立、破; 36m推动与抑制; 37m 界、连、断, 37n卡通阻; 38m选存弃; 3am获得与付出; 3bm积累与消耗; j71m黑氏对偶; j72m主要与次要, j72n基元与伴生;

文档评论(0)

allap + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档