- 1、本文档共12页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
词义消歧研究_资源_方法与评测
《当代语言学 》第 11卷 2009年第 2期 113 - 123页 , 北京
词义消歧研究 : 资源 、方法与评测
吴云芳 北京大学
提要 词义消歧是计算语言学领域的基础性关键研究课题 。本文从语言资源建设 、词义消歧方
法和国际语义评测三个方面概要地介绍了词义消歧研究的现状 : 语言资源建设主要介绍了语义
词典构建和词义标注语料库建设 ; 词义消歧方法重点介绍了有指导的机器学习方法 ; 语义评测
主要介绍了国际语义竞赛 Sem Eval。以期了解词义消歧研究的前沿状态 , 促发从计算的角度来审
视义项区分和词义描述 , 进而促进汉语词汇语义学的研究 。
关键词 词义消歧 义项区分 词义标注语料库 有指导的机器学习方法 语义评测
1. 引言
( )
词义消歧 word sen se disamb iguation , W SD 是计算机根据上下文语境来自动确定词语的
意义 。词义消歧包含两个必要的步骤 : ( 1) 在词典中描述词语的意义 ; (2) 在语料中进行词
义自动消歧 。例如 “仪表 ”在词典中描述有两个不同的意义 : 人的外表 ; 测定温度 、气压等
的仪器 。对于下面两个语句 :
( 1) 贵族的仪表使人对人性产生了美丽的错觉 。
(2) 我国仪器仪表事业的创始人朱 良漪 。
在网络上进行信息检索时 , 计算机应该能 自动将不同意义的 “仪表 ”区别开来并分别显示 。
( ) ( )
在汉英机器翻译中 , 例 1 中 “仪表 ”可译成 app earance, 而例 2 中 “仪表 ”应译成 m eter。
词义消歧是计算语言学领域的基础性关键研究课题 , 作为一个 “中间任务 ”, 直接关系
到信息检索 、机器翻译 、文本分类 、语音识别等语言处理应用系统的效率和成败 。W eaver
( ) ( )
1949 论及机器翻译系统中必须进行词义消歧 , 这一点在 Chan等人 2007 的研究中得到了
( )
证明 , 其研究表明词义消歧可以显著提升机器翻译系统的准确率 。Stokoe 等人 2003 证明高
( )
效的词义消歧技术可以显著提升信息检索的准确率 。然而 , 正如 Ide 和 V eron is 1998 所指
出的那样 , 虽然历经半个多世纪的努力 , 词义消歧研究并没有取得突破性进展 。现在 10 个
春秋又逝去了 , 词义消歧依然是学人们孜孜以求攻克的难关 。
词义消歧研究关涉到的三个主要问题是 : 资源 、方法与评测 。本文拟从这三个角度出
发 , 对当前的词义消歧研究进行概括性的评述 , 以期了解词义消歧研究的前沿状态 , 为将来
的探索提供启发 。本文评述虽然是面向中文信息处理的 , 但对于汉语词汇语义学的研究也有
一定的借鉴意义 , 从计算的角度来看待汉语词语的多义现象 , 或许会有一番新的景象 。
文档评论(0)