网站大量收购闲置独家精品文档,联系QQ:2885784924

短信文本分类技术的研究.PDF

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
短信文本分类技术的研究

第26卷 第5期 计 算机 技 术 与发 展 Vol.26 No.5 2016年5月 COMPUTERTECHNOLOGY AND DEVELOPMENT May 2016 短信文本分类技术的研究 王文霞,王春红 (运城学院计算机科学与技术系,山西运城 044000) 摘 要:短信作为一种重要的交流手段,发挥着越来越重要的作用。 但伴随着短信的广泛使用,垃圾短信则严重影响着人 们的生活,因此文中基于短信文本特征词对短信进行分类研究。 其中,TF-IDF特征词权重计算方法是对文本词汇权重计 算的一种经典算法,得到了广泛应用。 但此方法为了简化计算,忽略了词语之间的相互关系。 针对此问题,依据同一短信 文本中的词汇之间存在的相互关系,文中对权重计算法进行了调整,提出了基于模糊 均值的短信文本分类算法。 即先 K 将短信文本集用TF-IDF算法处理,得到词汇-文本集,再用模糊 均值算法对得到的词汇-文本集进行处理。 最后通过 K 实验,验证了基于模糊 均值的短信文本分类算法,其分类结果的查全率和查准率都较高,有效辨别了垃圾短信。 K 关键词:短信文本分类;向量空间模型;模糊聚类;模糊 均值 K 中图分类号:TP301 文献标识码:A 文章编号:1673-629X(2016)05-0145-04 doi:10.3969/j.issn.1673-629X.2016.05.031 Research on Text Classification Technology for Message WANG Wen-xia,WANG Chun-hong (Department of Computer Science and Technology,Yuncheng University, Yuncheng044000,China) Abstract:Asan importantmeansofcommunication,SMSplaysanincreasinglyimportantrole.ButalongwiththeextensiveuseofSMS, SMS spam seriously influencespeople’slives.Therefore,theclassification of SMSisresearchedbasedonthekeywordsinthispaper.TF -IDF weight calculation method isa classicalalgorithmto calculatethetext wordweight,which iswidelyused.But in order to calculate simply,thismethod ignoresthe mutualrelationsbetweenwords.Aimingatthisproblem,basedonthesamerelationshipbetweenwordsin thetextmessages,inthispaper,theweightingmethodisusedforadjusting,itputsforwardthetextclassificationbas

文档评论(0)

ldj215322 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档