软件工程基础Hadoop生态系统刘驰AnEcosystemforCloudComputing.PPT

软件工程基础Hadoop生态系统刘驰AnEcosystemforCloudComputing.PPT

  1. 1、本文档共67页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
软件工程基础Hadoop生态系统刘驰AnEcosystemforCloudComputing

软件工程基础 Hadoop生态系统 刘 驰 An Ecosystem for Cloud Computing A Distributed File System A Distributed Computation Framework for Batch Processing Implementation Overview PageRank : 关键理解 每次迭代的影响是有限的,第i+1次迭代仅仅依赖于第i次迭代 第i次迭代,每个节点的PageRank可以独立地计算 PageRank 使用 MapReduce M表示为系数矩阵 M的每行是分配给链接网页的PageRank值 这些值通过reduce聚集得到网页的PageRank值 PageRank 使用 MapReduce Map: 将PageRank 值分配给链接目标 Reduce: 从多个源聚集PageRank值计算得到新的PageRank值 不断迭代 直至收敛 Source of Image: Lin 2008 阶段 1: HTML处理 Map任务输入(URL, content) 对进行map后输出(URL, (PRinit, list-of-urls)) PRinit是URL初始的PageRank值 list-of-urls包含URL所指向的所有网页 Reduce任务只是验证函数 阶段 2: PageRank分配 Reduce 任务输入(URL, url_list) 和许多(URL, val) 值 计算vals 并且计算d 来获得新的PR值 输出(URL, (new_rank, url_list)) 非并行地检查是否收敛 DFS: provides a unified view of the file system and hides the details of replication and consistency management * * Even with Lucene, we had to tweak parameters to get proper performance for XML Index and Search because of its usage of disk for B-Trees implementation for DBLP dataset (337 MB) * On the software side: what is the programming model? On the hardware side: how to deal with failures – hardware and data corruption? * * 分布式Grep. URL点击频率计算 聚类(K-means) 图像算法. 索引系统 * Why is completed map task discarded? * * View from task perspective * View from scheduled m/c perspective * map类似于SQL聚集请求中的group-by子句 * * * * * * 需要处理Petabyte级别的数据集 为每个应用程序的建立可靠的平台代价较大 每天都有节点坏掉 – 节点坏掉是可以预料到的 – 集群中节点的数量不是稳定的 只需要普通的基础设施 –高效、可信、开源 Nutch 是一个开源Java 实现的有哪些信誉好的足球投注网站引擎。它提供了我们运行自己的有哪些信誉好的足球投注网站引擎所需的全部工具。包括全文有哪些信誉好的足球投注网站和Web爬虫。 Chukwa: log collection and analysis HIHO: Framework for big data integration, cleansing, deduplication, merge using Hadoop Apache Sqoop(TM) is a tool designed for efficiently transferring bulk data between Apache Hadoop and structured datastores such as relational databases. 1.MapReduce库先把user program的输入文件划分为M份(M为用户定义),每一份通常有16MB到64MB,如图左方所示分成了split0~4;然后使用fork将用户进程拷贝到集群内其它机器上。 2.user program的副本中有一个称为master,其余称为worker,master是负责调度的,为空闲worker分配作业(Map作业或者

文档评论(0)

2105194781 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档