- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
改进的K_means算法在网络舆情分析中的应用
2011 年 第 20 卷 第 3 期 计 算 机 系 统 应 用
①
改进的K-means 算法在网络舆情分析中的应用
汤寒青 1,2,王汉军2
1( 中国科学院 研究生院,北京 100049)
2( 中国科学院 沈阳计算技术研究所,沈阳 110171)
摘 要:结合网络舆情分析的应用需求背景,首先介绍了文本信息的处理,然后探讨了文本聚类中的 K-means
算法,针对其对初始聚类中心的依赖性的特点,对算法加以改进。基于文档标题能够代表文档内容的思想,改
进算法采用稀疏特征向量表示文本标题,计算标题间的稀疏相似度,确定初始聚类中心。最后实验证明改进的
K-means 算法提高了聚类的准确度;与基于最大最小距离原则的初始中心选择算法比较,提高了执行效率,同时
保证了聚类准确度。
关键词:网络舆情;K-means 算法;文本聚类;稀疏特征向量
Application of Improved K-Means Algorithm to Analysis of Online Public Opinions
TANG Han-Qing1,2, WANG Han-Jun2
1(Graduate University, Chinese Academy of Sciences, Beijing 100049, China)
2(Shenyang Institute of Computing Technology, Chinese Academy of Sciences, Shenyang 110171, China)
Abstract: Combining background application requirement of online public opinion analysis, this paper firstly introduces
the processing of text information, and then discusses the K-means algorithm of the text clustering, according to its
characteristic that clustering results depend on the centers of initial clustering, and improves it. Based on the thought that
text title can express its content, the improved algorithm uses sparse character vector to express text title, calculates the
sparse similarity of them and ascertains the centers of initial clustering. The experiments show that the method improves
the clustering accuracy. Compared with another algorithm based on the principle of maximum and minimum distance,
the improved method heightens the efficiency and ensures the clustering accuracy.
Keywords: online public opinion; K-means clustering algorithm; text clustering; sparse character vector
1 引言 分析问题的经典算法,Dhillon 将其应用到文本聚类
在当今网络信息技术快速发展的时代,网络舆情 领域[4] ,并利用余弦相似度计算对象间的距离,该算
分析受到众多学者的广泛关注。网络舆情分析首先把 法简单且收敛速度快,但也有着明显的缺点,因此本
收集到的网络信息转换
您可能关注的文档
最近下载
- 2022-2023学年七年级上学期期末考试语文试题(1).docx VIP
- 2024年看守所民警年终个人总结7篇.docx VIP
- 黑布林英语阅读初一7《渔夫和他的灵魂》中文版.pdf
- 垦丁律所:数据出境合规实务100问.pdf VIP
- 人教版八年级数学下学期课后习题与答案(最全).doc
- 2024 年度民主生活会“四个对照”方面(存在问题、原因剖析及整改措施).docx VIP
- 新闻传播伦理与法规教程PPT 新闻传播伦理与法规教程(7).pptx VIP
- 邱霈恩-002领导学(第二章).pptx VIP
- 新闻传播伦理与法规教程PPT 新闻传播伦理与法规教程(9).pptx VIP
- 新闻传播伦理与法规教程PPT 新闻传播伦理与法规教程(10).pptx VIP
文档评论(0)