基于改进TFIDF算法的文本分类研究.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于改进 TFIDF 算法的文本分类研究郑 霖,徐德华( 同济大学经济与管理学院,上海 基于改进 TFIDF 算法的文本分类研究 郑 霖,徐德华 ( 同济大学经济与管理学院,上海 200092) 摘要:由于文本分类在信息检索、邮件过滤、网页分类、个性化推荐等领域有着广泛的应用价值,所以自文本分类的概念 提出以来,受到了学者们的广泛关注。在文本分类的研究中,学者们运用了很多方法,其中 TFIDF 是文档特征权重计算 的最常用算法之一,但是传统的 TFID 算法忽略了特征项在类内和类间的分布,导致很多区分度不大的特征项被赋予了 较大的权重。针对传统 TFIDF 算法的不足,本文在 IDF 的计算过程中,用词条在类内与类间的文档占比来考虑词条在类 内与类间的分布。在实验中,用改进的权重算法表示文本向量,通过考察分类的效果,验证了改进算法的有效性。 关键词:TFIDF 算法; 特征选择; 文本分类 中图分类号:TP301. 6 文献标识码:A doi: 10. 3969 / j. issn. 1006-2475. 2014. 09. 002 Research on Text Categorization Based on Improved TFIDF Algorithm ZHENG Lin,XU De-hua ( School of Economics and Management,Tongji University,Shanghai 200092,China) Abstract: Due to the broad application of text categorization in information retrieval,email filtering,Web page classification, personalized recommendation and other fields,it raised extensive attention among scholars since the concept of text categorization was presented. In text classification research,scholars have adopted a lot of methods,and TFIDF was one of the most commonly used algorithms to calculate the weight of feature items. But the traditional TFIDF algorithm ignored the distribution of feature i- tems within classes and among classes,leading to high weight given to many items with little discrimination. In this paper,with the purpose of improving the traditional TFIDF algorithm,we modified the calculation method of IDF,adding some factors which reflected the distribution of feature items within classes and among classes. In the experiment,we applied the improved TFIDF al- gorithm into text categorization. By investigating the effect of text classification,the improving algorithm was verified valid. Key words: TFIDF algorithm; feature items selection; text categorization 和论坛帖子等。在文本分类的过程中,核心的部分就 是将文本表示成向量空间模型[1]( VSM: Vector Space Model)。在建立文本空间向量模型的过程中,首先是 对文本进行分词,将文本表示成向量形式,但是这样 产生的向量维数巨大,产生“维度灾难”。因此,在文 本分词结束后,首先进行特征选择和权重的计算,降 低文本向量的维数,形成一个低维的空间向量。 在建立空间向

文档评论(0)

小教资源库 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档