05 基于类别概念的特征选择方法 王琳.doc

05 基于类别概念的特征选择方法 王琳.doc

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
05 基于类别概念的特征选择方法 王琳

基于类别概念的特征选择方法 王琳1,陈伟萍2,封化民3,方勇1,3,杨鼎才2 (1.北京邮电大学 电信工程学院,北京 100876;2.燕山大学,秦皇岛 066004;3.北京电子科技学院 信息安全与必威体育官网网址重点实验室,北京 100070) 本文基于中文文本分类的定义及其向量空间模型,分析了向量空间模型正确分类的关键所在。通过对传统的特征选择方法及其存在的问题的分析,提出了基于类别概念的特征选择方法。通过支撑向量机对中等规模语料库的实验,验证了此方法的有效性。 文本分类;向量空间模型;知网;类别概念。 Feature Selection Method Based on Category Concept Lin Wang1, Weiping Chen2,Huamin Feng3,Yong Fang1,3,Dingcai Yang (1.School of Telecommunication Engineering, Beijing University of Post and Telecommunications, Beijing 100876 China; 2.School of Information Engineering, YanShan University, Qinhuangdao 066004 China; 3.Key Laboratory for Security and Secrecy of Information, Beijing Electronic Science and Technology Institute, Beijing 100070 China) Based on the definition of text categorization and VSM(Vector Space Model), this paper analyzes the key points of correctly categorizing texts. After analyzing the conventional feature selection methods, a new feature selection method was proposed. By using Support Vector Machine, experiment result on a mid-size corpus showed the effectiveness of the method. Text Categorization; VSM model; HowNet; Category Concept. 引言 网络技术的发展和Internet的开放性使它逐步成为一个全方位的资源宝库,但其复杂的结构使人们很难从中准确找到需要的信息。文本分类是信息检索中的重要课题。传统的文本分类是基于人工方式的,如过去Yahoo的做法就是将网页放在一个巨大的层次分类结构中,通过人工组装维护这些类别,达到帮助人们方便快速查找信息的目的。这种方式缺点很多,如周期长、费用高、效率低、需要大量专业人员以及分类结果的一致性低等。 20世纪90年代以后,基于机器学习的文本自动分类方法越来越成为主流。通过学习的方式使分类器获得分类知识,直至具备判别新文本所属类别的能力。相比于人工方式,它具有周期短,效率高,节省人力资源,分类结果一致性高等优点。但作为自然语言处理、人工智能、模式识别等多领域的交叉学科,它受到多方面的限制,分类准确率一直不能达到令人满意的效果。在Internet信息急剧膨胀的今天,为文本分类提供了广阔的发展空间,文本自动分类面临前所未有的机遇和挑战,如何提高分类准确率成为研究热点。 本文从文本分类的基本问题出发,分析了文本分类的基本模型、特征选择等内容。全文结构安排如下:第一节介绍文本分类定义及向量空间模型;第二节简要介绍了典型的传统特征选择方法;第三节是本文重点,提出了基于类别概念的特征选择方法;第四节描述了实验设计的系统框架结构;第五节给出了实验结果及其分析;最后第六节得出结论并对未来研究予以展望。 文本分类及向量空间模型 文本分类定义 文本分类(Text Categorization)是指依据文本的内容,由计算机根据某种自动分类算法,把文本判分为预先定义好的类别。 向量空间模型 向量空间模型(VSM, Vector Space Model)是最常用的文本分类模型之一。它以特征项作为向量空间的坐标,将文本看作向量空间中的点。特征项可以是字、词、短语、句子等意义单位。一般取词作为特征项。即是说,集合所有的特征项确定一个特征空间,假定为维空间,每一篇文本就可以用的一个向量表示,其中表示在中的权重。其中,为词或短语,对应每个,通常用权重

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档