大规模平衡语料的收集分析及文本分类方法研究-.doc

大规模平衡语料的收集分析及文本分类方法研究-.doc

  1. 1、本文档共96页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
目 录 第一章 绪 言 1 第二章 大规模平衡语料的收集分析 3 2.1 研究背景 3 2.2 国内外语料库概况[冯志伟,2000] 3 2.2.1 国内语料库概况 3 2.2.2 国内语料库概况 4 2.3 大规模平衡语料的收集分析 5 2.3.1 通用语料的收集和通用词汇的抽取 5 2.3.2 专有名词的收集 11 2.3.3 专用词汇的收集 14 2.3.4 注音 16 2.3.5 词典形式 16 2.3.6 大规模平衡语料的分析[陈克利,2003] 18 第三章 基于大规模真实语料的文本分类方法 22 3.1 已有的文本分类方法简介 22 3.1.1 纯贝叶斯方法 23 3.1.2 Rocchio 算法 24 3.1.3 k近邻算法 25 3.1.4 支持向量机算法(SVM) 25 3.1.5 决策树算法 27 3.1.6 其他分类算法 27 3.2 特征向量的权重算法 28 3.2.1 常用的特征权重算法 29 3.2.2 特征权重算法的改进 32 3.3 特征向量的抽取 35 3.4 评价函数 38 3.4.1 微平均和宏平均 38 3.4.2 F-Measure 39 3.4.3 Break-even point [Aas, 1999]. 39 3.4.4 11-point average precision [Taghva, 2004] 39 3.5 阀值函数 41 3.6 实验 41 3.6.1 实验:TF*IWF算法和改进后的TF*IWF*DBV算法的比较 41 3.6.2 实验: DBV和DBV2的比较 46 3.6.3 实验: TF*IDF算法和TF*IDF*DBV算法的对比 47 3.6.4 实验: 不同特征选取方法的对比 51 第四章 结束语 54 参考文献 56 第一章 绪 言 语料库和词典是进行自然语言处理研究的重要资源。语—信息检索。 自动文本分类技术是自然语言处理领域的一个重要课题。除了上面提到的信息检索以外,文本分类还应用在其他许多方面,如:信息过滤、文档索引、数字图书馆的分类和管理、词义消歧、主题识别、语料库建设、元数据生成等。 本文主要包括部分内容。 道不同领域各种词类的分布差别比较大,所以我们选取词作为文本分类的特征进行分类的研究。在这一部分,我们主要做了三方面的工作,第一部分介绍了现有的一些特征权重算法,比较了其优劣,并提出了我们的改进算法;第二部分介绍了现有的一些特征抽取算法,并在对这些算法分析后,提出了我们的特征抽取算法;第三部分设计了五个实验,对上述提到的算法进行了对比,从实验上证明了改进算法的有效性。 最后一章对全文进行了总结。 第二章 大规模平衡语料的收集分析 鉴于大规模平衡语料和大规模汉语词典的重要性,中科院自动化所参加了由Sabanci大学、IBM、UPC、RWT、NSC、NOK、SIE、AudiTech、Maribor大学参加的涉及到12国语言的语料和词典建设项目(LC-STAR),该项目全称是面向口语-口语翻译技术的语料和词典建设。主要目的是建立一个符合现代汉语语言行为的,适用于语音识别和语音合成的汉语标注语料和信息词典。 研究背景 本项研究的基础是中科院自动化所与诺基亚(中国)研究中心合作的欧盟项目(LC-STAR)(中文部分). 本论文的研究工作得到如下项目资助: [1]国家自然科学基金项目“语音、图像与视觉计算”(项目编号 [2]欧共体国际合作项目(LC-STAR项目)“面向口语翻译的词汇处理” LC-STAR(Lexica and Corpora for Speech-to-Speech Translation Technologies)(面向口语-口语翻译技术的词典和语料库建设) 是由欧盟发起的,面向12国语言的资源建设项目.其目的是为加泰罗尼亚语、芬兰语、德语、希腊语、希伯来语、意大利语、汉语、俄语、西班牙语、标准阿拉伯语、土耳其语和美式英语等12国语言,建立适用于语音识别、语音合成以及口语-口语翻译的大规模标注语料库和信息词典(主要是词性和注音信息)。 国内外语料库概况[冯志伟,2000] 最初的语料库的建设比较困难,需要大量的手工工作,随着计算机在语言学研究领域的广泛应用,这种状况才得以改变,尤其是近年来,国内外涌现出了很多标注详细、加工深入、适合用于语言学研究的大规模语料库。 国内语料库概况 美国Brown大学建立的BROWN语料库,英国Lancaster大学与挪威Oslo大学与Bergen大学联合建立了LOB语料库。欧美学者利用这两个语料库开展了大规模的研究,并对这两个语料库系统的部分语料进行了自动标注。 此外比较著名的还有,London-Lund口语语料库、AHI语料库、OTA牛津文本档案库、BNC英语国家语料库、LD

文档评论(0)

14576 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档