多义词甄别的知识库建构与对传统词典义项的改造.ppt

多义词甄别的知识库建构与对传统词典义项的改造.ppt

  1. 1、本文档共70页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多义词甄别的知识库建构与 对传统词典义项的改造 厦门大学中文系 国家语言资源监测与研究中心 教育教材语言分中心 苏新春 2009-9-14 北京大学计算语言学研究所 要点: WST系统介绍 义项库的来源与作用 传统词典义项WSB存在的问题 对传统词典义项的改造 词义标注就是用计算机为真实语境中的每个词选择、确定并标示一个适切、对应的义项。 北大计算语言学所对这一研究进行了卓越的研究。 吴云芳、俞士汶《信息处理用词语义项区分的原则和方法》(2007) 吴云芳《词义消歧研究:资源、方法与评测》(2009) 。 国内学者在这一领域发表了重要成果的还有黄昌宁、童翔、李涓子、金澎、卢志茂、刘挺、李生、鲁松、白硕、段慧明、郭涛、杨尔弘、张国清、张永奎等先生。详见吴文(2009) 我们开始此项研究的缘起: 承担了国家社科基金课题:基于国家语委“通用语料库”之上的汉语义频词库的开发(04BYY009)。 原课题目标主要是理论探索与数据获求,无意走上了这条不得不走的艰难之道。 主持人:苏新春 主要参加人:李安、卢伟清、洪桂治、蒋媛、曾妍妍、刘海燕 参加人:张蕾、唐师瑶、张玉彪、田立宝、武超杰、王艳春、王珊、石梦苏、王建军、郭佳、徐晓煜、黄挺、刘楠、王天佐、周蕾、张丹丹、刘名、叶醒悦、肖婷华、余龙浩、张其良、赵方、徐婧、栾玉皎等。 2004年以来经历过的阶段: 建设语料库; 讨论理论模型; 提取规则; 修订义项; 验证库; 苏新春、王惠、卢伟清、秦少康,《以义项为单位,以义群为纽带,以词义辨析为内容——进一步完善机用语言知识库之方案》,《第六届汉语词汇语义学会议论文集》(SINGAPORE COLIPS PUBLICATIONS),2006。 苏新春、李安,《计算机多义词自动识别中的语义标注》,第9届汉语词汇语义学术研讨会报告论文,新加坡,2008 “现代汉语多义词词义自动标注系统” Automatic Polysemous Sense Tagging of Modern Chinese 简称WST WST包括以下七个分库: 语料库 义项库 规则库 语法库 语义库 验证库 义频库 1.语料库全称为“现代汉语语料库”。 容量达1.9亿字,包括新闻语料、文学作品、教材、科普作品等。义项标注提取规则的来源库,所有词的使用规则的提取都是根据对该库里词语真实状态进行概括、提炼的结果。 2.义项库全称为“现代汉语词义标注用义项库”(Word Sense Base for Automatic Polysemous Sense Tagging of Modern Chinese),简称WSB。 包括词8万余条,义项9万余个。有多义词近9千条。主要吸收了《现代汉语词典》第3版、第5版的内容,个别参考了《汉语大辞典》,另增加了2万余条语文性词语及部分义项。义项库是词义标注的来源,也是衡量词义标注效果的主要标准,更是寻找词义特征、确定规则时的依据。 3.语义库全称为“现代汉语语义分类库”(A Thesaurus of Modern Chinese),简称TMC。 分一级类9个,二级类62个,三级类516个,四级类2086个,五级类12602个。嵌于其中,起帮助识别义项语义特征的辅助作用。在标注工作中能起到鉴别作用的最低可至3或4级类。 4.语法库全称为“现代汉语语法信息词典” ,北大俞先生主持研制。起帮助识别义项语法特征的辅助作用。 5.规则库全称为“现代汉语多义词词义搭配知识库(Polysemy Word Sense Collocation Knowledge Base of Modern Chinese)”,简称PCKB。 是确定一个词在具体语境中使用义项的条件与依据。该库保存了对高频、义项在2-5之间、词频在100以上的3700多条双音节多义词所提取的全部使用规则。为每个词语描绘出具体规则,平均每个词9条规则共27000条。 6.验证库全称为“现代汉语词义标注验证库”(Word Sense Tagged Corpus of Modern Chinese),简称WSTC。 是人工标注了义项的语料库,主要作为对词义标注效力进行检验,对规则提取、修订、完善起校正、验测作用的实验库。 7.义频库全称为“现代汉语多义词词义频级库”(Polysemous Senses Frequency Rank base of Modern Chinese),简称PFRD。 是一个动态数据库。最初根据语感、简单语料调查以及词典义项属性标识给义项进行粗糙义频分级,并在词义标注过程中起帮助作用。最后根据标注结果不断调整、细化,最终形成精细、准确的义频调查结果库。 二、义项库的来源与作用 义项库WSB是词义标注时义项选择的来源。但又不仅仅是如此。WSB对研究中的几乎所有环节都

文档评论(0)

junjun37473 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档