词义排歧的提出及其意义毕业论文.doc

下载文档 降价啦

4
0
约4.25万字
约 61页
2017-08-11 发布于湖北
举报
版权申诉
保障服务

词义排歧的提出及其意义毕业论文.doc

1、本文档共61页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

词义排歧的提出及其意义毕业论文目　　录摘　要 I Abstract II 引　言 1 1 问题描述 3 1.1 词义排歧的提出及其意义 3 1.1.1 词义排歧 3 1.1.2 词义排歧研究的意义 4 1.2 国内外的研究状况 5 1.2.1 有指导排歧方法 5 1.2.2 基于词典的排歧方法 9 1.2.3 无指导的排歧方法 10 1.3 面临的主要问题 11 1.3.1 上下文选择 11 1.3.2 词义的划分 12 1.4 词义排歧的评测方法 12 1.5 本文的工作 12 2 面向WSD的AdaBoost.MH算法模型 14 2.1 基本概念 14 2.2 AdaBoost.MH算法简介 15 2.2.1 AdaBoost算法背景 15 2.2.2 AdaBoost算法基本思想 16 2.2.3 算法误差的分析 18 2.2.4 多类分类问题 20 2.2.5 AdaBoost算法的优缺点 20 2.3 面向WSD的AdaBoost.MH算法描述 21 2.4 弱学习器的设计及的选取 22 3 上下文特征的选择 25 3.1 相邻词的词性标注（POS） 25 3.2 局部搭配信息 26 3.3 语义范畴信息 26 3.3.1 《同义词词林》简介 26 3.3.2 对《同义词词林》中未登录词的处理 28 3.3.3 语义范畴信息的选取 29 4 汉语AdaBoost.MH -- WSD实验 30 4.1 语料库 30 4.1.1 人民日报语料 30 4.1.2 SENSEVAL3 中文语料 30 4.2 实验评测及结果 31 4.2.1 人民日报语料实验结果与评测 32 4.2.2 SENSEVAL3 中文语料实验结果与评测 32 4.3 算法中迭代次数的确定 34 4.4 语义信息的引入对排歧效果的影响 35 4.4.1 人民日报语料实验 35 4.4.2 SENSEVAL3 中文语料实验 36 5 自动建立带标注的语料库的方法 38 5.1 自动构建标注语料库的模型 38 5.1.1 有哪些信誉好的足球投注网站关键字的建立 39 5.1.2 语料库的建立和修剪 40 5.2 语料库可用性的评测实验与分析 42 5.2.1 语料库 42 5.2.2 语料库中有哪些信誉好的足球投注网站到的新搭配 42 5.2.3 上下文特征的选取 42 5.2.4 实验结果及评测 42 结　论 45 参考文献 46 附录A SENSEVAL3中文语料示例 49 附录B 标注语义范畴信息的语料示例 51 附录C 《同义词词林》语义信息示例 53 附录D 《同义词词林扩展版》语义信息示例 54 攻读硕士学位期间发表学术论文情况 55 致　　谢 56 大连理工大学学位论文版权使用授权书 57 引　言计算语言学（Computational Linguistics）是一个横跨语言学、数学和计算机科学的新兴交叉学科[1]。它通过建立形式化的数学模型，来分析、处理自然语言，并在计算机上用程序来实现分析和处理的过程，从而达到以机器来模拟人的部分乃至全部语言能力的目的[2]。计算语言学的研究工作分为两个方面。第一，从计算的角度来研究语言的性质；第二，将语言作为计算对象来研究相应的算法。所谓从计算的角度来研究语言的性质，就是要求将人们对语言的结构规律的认识以精确的、形式化的、可计算的方式呈现出来，而不是像其他语言学研究那样，在表述语言的结构规律时一般采用非形式化的表达形式。所谓将语言作为计算对象来研究相应的算法，就是研究如何以机械的、规定了严格操作步骤的程序来处理语言对象（主要是自然语言对象，当然也可以是形式语言对象），包括识别一个语言片断（比如词组、句子或篇章）中的大小语言单位，分析该语言片断的结构和意义（自然语言理解），以及如何生成一个语言片断来表达确定的意思（自然语言生成），等等。自然语言处理(Natural Language Processing)是利用计算机技术研究和处理语言的一门学科，即把计算机作为语言研究的强大工具，在计算机的支持下对语言信息进行定量化的研究，并提供可供人与计算机之间能共同使用的语言描写。它属于计算语言学的算法部分[1]，并经过如下的过程——把需要研究的语言学问题加以形式化，使之能以一定的数学形式或者接近于数学的形式，严格而规整地表示出来；把这种严格而规整的数学形式表示为算法，使之在计算上形式化；根据算法编写计算机程序，使之在计算机上加以实现。自然语言处理是人工智能研究的最重要的课题之一。人类知识大都是以语言的形式表示并流传下来的，据统计，在信息领域中80%以上的信息是以语言文字为载体的。自然语言处理的重大突破，将为知识获取开辟重要来源。同时它也将触发人机接口革命。它将使计算机具有听、说、读、写的能力，人们可以用自然语言和计算机交流，这将给使用