探究基于云计算Web结构挖掘算法.doc

下载文档 降价啦

1
0
约3.9千字
约 8页
2018-09-10 发布于福建
举报
版权申诉
保障服务

探究基于云计算Web结构挖掘算法.doc

1、本文档共8页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

探究基于云计算Web结构挖掘算法

探究基于云计算Web结构挖掘算法　　摘要：云计算是基于互联网的一种超级计算模式，能够为将Web中的所有数据信息集中在一起，为其提供各种服务。数据挖掘是获取Web网页中的有用的信息，随着互联网的快速发展，Web网页中的数据信息量显著增加，传统挖掘算法已经无法满足用户的实际需求，基于云计算的Web结构挖掘算法，能够打破传统挖掘算法的桎梏，对于Web网页信息和知识的发现提供了很大的便利。文章分析了云计算的特点以及服务模式，探析了一种基于云计算的Web结构挖掘算法，即基于MapReduce的PageRank算法，以供参考。　　关键词：云计算；Web；结构挖掘算法　　中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2015）06-0010-02 　　数据挖掘指的是对大量、复杂的数据信息进行分析，然后从中获取有用的数据信息。现如今，重要的数据信息都储存在Web网页上，由此可见研究Web数据挖掘的重要性。但是，随着互联网技术的快速发展，Web网页上的数据信息量不断地增加，网络环境也越来越复杂，想要从Web网页中挖掘出有用的信息，传统的节点计算、储存算法已经远远不能满足需求，基于云计算的Web结构挖掘算法，能够有效地解决传统算法存在的问题，例如，基于MapReduce的PageRank算法，以其强大的网络数据信息获取能力、计算能力、储存能力，能够更加快速、高效的挖掘、计算和储存Web网页的信息和知识。因此，文章针对基于云计算的Web结构挖掘算法的研究具有非常重要的现实意义。　　1 云计算的特点以及服务模式分析　　1.1 云计算的特点　　云计算是一种基于用户需求，为用户提供主动服务的超级计算模式。云计算能够为用户提供共享的服务模式，并且能够支持多个用户的不同需求。云计算能够满足不同规模的计算需求，由信息和资源处理中心对需求进行快速的分析和调节，并进行云计算。云计算采用按量计费的方式，用户不需要对没有消费的服务买单，这样既能够降低成本，又能够避免造成浪费。　　1.2 云计算的服务模式分析　　云计算的服务模式主要包括以下几个方面：　　1）IaaS，Infraslruelure as a Service――基础设施即服务，根据用户权限，可以直接方位云计算提供的网络宽带、分布式储存、并行运算等基础设置，同时可以根据自己的需求，搭建负荷自己需求的平台；　　2）PaaS，Platform as a Service――平台即服务，云计算能够为用户提供一个平台，包括工具集与软件开发语言，其能够为用户组建一个虚拟的操作系统，用户根据自己的需求在该平台上开发以及部署相应的平台与应用；　　3）SaaS，Software as a service――软件即服务，用户根据自己的需求，使用基于云计算架构的应用程序为自己服务，例如网络储存、在线表格、在线文档、电子邮件等。　　2 基于MapReduce的PageRank算法分析　　2.1 基于MapReduce的PageRank算法的实现　　2.1.1 算法数据准备　　按照链接结构文件格式将文件转换成针对每一个节点的出链接结构文件，其中预处理数据包由网页上的海量数据信息组成，在map执行的过程中，按照map方法，生成所有起始节点的目标点的，其中key表示起始节点，value表示目标节点，每一个key为初始化PageRank值，然后输出数据到HDFS。　　2.1.2 算法的实现　　PageRank算法输出的每个节点，按照Map方法对输入每一行记录的目标节点顺序，按照每个key归类MapReduce框架采集map方法对应的value。按照reduce方法，将每一个key：页面y，对的所有项进行加和，然后带入公式：Pk+1= dATPk+（1-d）（公式1）计算，其中，PK表示第k次迭代后的PageRank向量，AT表示矩阵的转置矩阵，然后输出所有页面全新的PageRank，即获得所有key初始化的PageRank值，在HDFS中储存所有的计算结果，进行下一次迭代计算。在迭代计算过程中，Mapper对所有起点的目标点生成一个与之对应的partial，然后把所有的partial传送至Mapreduce中。　　2.2 基于MapReduce的PageRank算法的改进分析　　2.2.1 迭代并行PageRank改进算法分析　　按照PageRank算法的传统计算公式，推算PageRank算法的向量公式，即公式1，因此按照初始向量P0进行向量Pk的递推，过程表现为：　　P1= dATP0+（1-d）e （公式2）　　P2= d2（AT）2P0+d（1-d）ATe+（1-d）e （公式3）　　Pk=+dk（AT）kP0+ d