网站大量收购闲置独家精品文档,联系QQ:2885784924

短信文本聚类方法研究.pdf

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ThesisforMaster’s Degree,ShanxiUniversi锣,20ll Researchon forTeXt ClusteringApproachMessages StudentName Junbo Zhang Supervisor Pro£1、ⅣangSuge Major Control Engineering RetrieVal Specialty Intelligent DepanmentSchoolofMathematicsScience ResearchDuration 1l S印.200旷—-Jun.20 June2011 万方数据 目 录 中文摘要………………………………………………………………………………I ABSTRACT………………………………………………………………………………………………….1II 第一章绪论………………………………………………………………………….1 1.1研究背景、目的及意义……………………………………………………….1 1.2国内外研究现状……………………………………………………………….1 1.3本文的研究工作……………………………………………………………….3 1.4论文的组织结构……………………………………………………………….4 第二章文本数据分布的考察分析………………………………………………….5 2.1语料分析……………………………………………………………………….5 2.2高维空间的数据分布………………………………………………………….6 2.2.1信息增益与有监督的K小烈分类方法……………………………………6 2.2.2 K均值聚类方法……………………………………………………………7 2.3实验及结果分析……………………………………………………………….7 2.3.1评价指标…………………………………………………………………一7 2.3.2数据分布一致性实验……………………………………………………一8 2.3.3数据分布聚集性实验……………………………………………………一9 2.4本章小结……………………………………………………………………….9 第三章基于K均值聚类算法的短信数据处理…………………………………..11 3.1短信文本的特征选择方法……………………………………………………1】 3.1.1基于全局高文档频率的特征选择方法…………………………………11 3.1.2基于各类别高文档频率的特征选择方法………………………………12 3.2基于密度的初始点选择方法…………………………………………………12 3.3基于规则与K均值算法的短信聚类………………………………………一13 3 3.4实验及结果分析………………………………………………………………1 3 3.4.1聚类评价指标介绍……………………………

文档评论(0)

llllss930 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档