- 1、本文档共49页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
学号?: 1
常 州 大 学
硕 士 学 位 论 文
?
微博中水军的发现算法研究
研究生 徐小松 指 导 教 师 杨长春 教授 学科、专业名称 计算机应用技术 研究方向 Web数据挖掘 ?
2014 年 3 月
A Research about the Navy discovery
in Micro-blog
?
??
A Dissertation Submitted to
Changzhou University
??
By
?
Xu Xiaosong
(Computer Applications Technology)
?
?
Dissertation Supervisor: Prof. Yang Changchun
?
?
March,2014
常州大学学位论文原创性声明
本人郑重声明:所呈交的学位论文是本人在导师指导下独立进行的研究工作及取得的研究成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在论文中以明确方式标明。本人已完全意识到本声明的法律结果由本人承担。
作者签名: 签字日期: 年 月 日
学位论文版权使用授权的说明
本学位论文作者完全了解 常州大学 有关保留、使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属常州大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。学校可以公布学位论文的全部或部分内容,可以采用影印、缩印或扫描等复制手段保存、汇编本学位论文。
必威体育官网网址论文注释:本学位论文属于必威体育官网网址范围,在 年解密后适用本授权书。非必威体育官网网址论文注释:本学位论文不属于必威体育官网网址范围,适用本授权书。
学位论文作者签名: 签字日期: 年 月 日
导师签名: 签字日期: 年 月 日
中文摘要
微博的出现给人们带来了翻天覆地的变化。通过微博我们可以很方便地获取信息,同时也可以使用它来关注自己想要关注的人或者关注他们的点点滴滴,因此越来越多的人正在使用它。然而,时间久了就会发现在微博中出现了许多重复的并且不断骚扰我们视线的内容,而且有些内容一度被认为是炒作,随即也相应地出现了网络水军这一称号。发现并且去除水军对于维护网络安全、网络真实性来说是非常有研究意义的一个话题。
本文就如何发现水军用户提出了一种方法,首先在数以万计的评论内容中找出相似的评论内容,然后在这些相似的评论内容中找出出现次数较多的用户,对这些用户进行统计分析找出水军。
本文的难点以及重点就是找出一种适合于在大规模文本中进行文本去重的方法。本文主要提出了一种改进的I-Match算法。他的主要核心思想就是根据评论内容中字、词权重的高低,顺序选取得到一个固定长度的字符串作为特征码。特征码经过最长公共子序列的精确计算以及md5特征映射得到此评论内容的一组特征码数值。特征码数值再经过B-Tree索引,能够从大规模的评论内容中有效地找出相似的评论内容。根据水军发帖的重复性或者相似性很高的特点,通过对多个相同或相似的评论内容的用户进行统计分析找出出现次数频繁的用户,初步定义为水军。再对这些用户的评论内容进行分析,发现他们的评论内容基本上都是具有重复性。通过实验对比可以发现改进的I-Match算法比原方法得到的结果更加的精确,它能够将那些漏字、添字或者有稍微改动的但是还是比较相似的文本给找出来。实验证明此方法可以有效地进行文本去重。
实验证明本文发现水军的算法可以有效地发现水军,希望本文的研究能够为微博平台提供一些帮助。
关键字:网络水军;文本相似;I-Match算法 ;最长公共子序列;MD5特征映射;
Abstract
Micro-blog brought enormous changes to people. We can find information from Micro-blog easily and we can pay close attention to people which we want to know, then we can see bits and pieces of their lives. So, more and more people use it in the modern time. H
文档评论(0)