网站大量收购闲置独家精品文档,联系QQ:2885784924

基于PageRank算法的网络关键节点查找.docVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于PageRank算法的网络关键节点查找   摘要:本文基于新浪微博平台,以天猫双十一狂欢夜为主题收集数据,根据用户之间的转发关系构建社交网络,然后利用PageRank算法找出网络中的关键节点。   关键词:PageRank;层次分析法;关键节点   中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)04-0226-02   1 概述   2016年11月10日晚20:30,2016双十一天猫晚会落户于深圳大运中心体育馆举行,由浙江卫视承办,张靓颖、蔡依林、Rain、TFBPYS等大咖纷纷加入。综艺内容、明星游戏、移动购物三位一体,用全新体验为亿万观众上演了一场边看边剁手的互动娱乐盛宴。   数据显示长达4小时的双11直播晚会,收视率高达23%。根据阿里方面透露,双11晚会硬广收入利润将以红包的形式回馈消费者。此外,阿里巴巴集团旗下大文娱版块,包括合一集团(优酷土豆)、天猫魔盒、虾米音乐、UC浏览器、天猫客户端等平台,都将组成2016双11晚会的联动直播矩阵[1]。   微博用户“天猫双11狂欢夜”是天猫双11全球狂欢夜晚会的官方微博,该博在11月10日晚发布大量微博直播晚会现场,包括晚会明星阵容和节目抽奖等。许多新浪微博用户对官微发布的微博进行转发,同时众多微博大V用户和普通用户展开话题讨论。   本文收集2016年11月10日至11日与“天猫双11狂欢夜”话题相关的微博数据,根据用户之间的转发关系构建社交网络,使用Gephi软件绘制网络结构图,然后使用PageRank算法计算每个节点的PR值,从而找出其中的关键节点。   2 国内外研究现状   PageRank算法最早是由Sergey Brin 和 Larry Page 在《The Anatomy of a Large-Scale Hypertextual Web Search Engine》一文中提出的[2],它借鉴引文分析的思想,建立在随即冲浪者模型之上,对网页进行评价,为每个网页赋予一个衡量其重要性的PR值,并最后应用于检索结果的排序。   PageRank的基本思想主要来自文献引文分析,一篇学术论文的重要性及质量可以通过其他学术论文对其进行引用的数量来衡量,被引用得越多,重要性越高。PageRank应用传统的文献引文分析思想,提出一个假设,认为网页的重要性和质量可以通过其他网页对其链接的数量来衡量。   PageRank算法通过网页之间的链接来评价网页的重要性,能够在一定程度上避免和减少人为因素对排序结果的影响。该算法采用离线计算方式,与查询无关,因此响应速度较高。PageRank采用均分策略,一个网页的引用越多,被引用网页所获得的PR值就越少[3]。因此,算法可以有效避免为了提高有哪些信誉好的足球投注网站排名而故意使用链接的行为。   PageRank算法在Google有哪些信誉好的足球投注网站引擎获得成功运用,足以证明该算法的高效性和有效性,但是算法也存在一些缺点,会导致主题漂移问题[4],而且偏重旧网页,旧的页面等级会比新网页要高,但事实上很多新网页的重要性是远高于旧网页的,同时也忽视了用户的个性化问题,所以算法仍有很大的改进余地。   算法的改进可以归纳为两类[5],一类是基于算法理论的改进,转化为求解矩阵特征向量的问题,比如Power算法、GMRES算法和Power Amoldi算法等;另一类是针对互联网实际应用的特点而进行的改进,比如针对解决主题漂移问题提出的Topic Sensitive PageRank算法,针对时间问题戚春华等人提出了具有时间反馈的PageRank改进算法。   3 PageRank算法   对于某个互联网网页A来说,该网页PageRank的计算基于以下两个基本假设:(1)数量假设:在Web图模型中,如果一个页面节点接收到的其他网页指向的入链数量越多,那么这个页面越重要。(2)质量假设:指向页面A的入链质量不同,质量高的页面会通过链接向其他页面传递更多的权重。所以越是质量高的页面指向页面A,则页面A越重要。   根据以上两个假设,一个页面的PageRank是由其他页面的PageRank计算得到的,如果给每个页面一个随机的PageRank值(非0),通过迭代计算来不断地更新每个页面节点的PageRank值,直到PageRank值稳定为止,我们就得到所有节点的PageRank值。PageRank的计算公式为:   [PRi=1-dN+dpjPRjLpj]   其中,PRi是网页i的PageRank值,PRj是网页j的PageRank值,pj表示研究的网页,N为页面总数,L(pj)是pj网页链出页面的数量,d为阻尼系数,表示用户随机跳转到一个页面的概率,通常取0.85,能够避免PR值沉淀现象。   4 Pag

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档