网站大量收购独家精品文档,联系QQ:2885784924

文本分类中特征择和分类算法的研究.pdf

  1. 1、本文档共51页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文本分类中特征择和分类算法的研究

摘 要 近些年来,在信息技术和互联网的高速发展下,电子文本信息的数目迅速增长。人们可获得 的信息越来越多。然而由于信息的杂乱无序,人们很难在浩瀚的数据中找到真正需要的信息。面 对我们常说的“信息发达,知识贫乏”这样的局面,如何尽最大可能对这些信息进行有效的组织 和管理成为信息处理研究中重要的研究之一,文本分类技术就是解决这一问题的有效方法。能够 帮助人们非常高效并且准确的定位文本信息,为用户取得需要的信息提供强大的支持。 本文详细介绍了文本分类的主要方面,涉及文本表示、文本特征提取方法、文本分类算法等 相关技术。同时针对文本分类中涉及到的两个关键的技术(文本特征提取和分类算法)进行了详 细的研究,具体内容包括以下几方面: (1)文本特征项提取方法的研究。 分析了特征项提取的传统方法TF.IDF算法,并在此基础上提出了一种新的改进策略,以提 高特征项提取的查全率和查准率。 (2)分类算法的研究。 分析了决策树和logistic回归分类算法的优缺点,决策树有较高的分类准确性但是在建树的 过程中面对大量数据需要庞大的计算量。针对这个问题提出了基于logistic回归的决策树分类算 法,在建树前先利用logistic回归算法进行数据的缩减,留下对分类影响最大的一些数据,提高 建树的速度。 (3)实验分析。 基于对文本分类相关技术的深入分析研究,对文本提出的改进的特征项的选取方法和分类算 法进行实验分析和验证。 关键词:文本分类,特征项选择,分类算法 Abstract IIlrecent the ofinformationand of Intemet, years,withrapiddevelopment technologypopularity ofelectronicdocumentsincrease willbemoreandmoreinformation.Asthe theamounts largely.There clutterand is fmd wantinthemassdata.Face information’S difficultto what disorder,it really people sucha said‘‘muchdataand to and situation,which information”,howorganize peopleusually poor themassdata hasbecomeall classificationisan manage efficiently importantproblem.Text technique effectivetosolvethis can and textdata text way problem.Iteffectivelymanageorganize through classification and thetextand techniques,helppeopleefficientlyaccuratelypositioning providestrong forusertoobtain information. support necessary Thi

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档