Hadoop原理与实务应用.pptVIP

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Hadoop原理与实务应用.ppt

Hadoop原理與實務應用 報告人:魏宏吉 大綱 何謂Hadoop Hadoop架構 HDFS架構 Hadoop MapReduce運作原理 Demo 1.何謂Hadoop Hadoop是由Google雲端架構得到啟發而開始的開放原始碼計劃,目前有許多組織參與Hadoop的研究開發,並以Hadoop做為雲端運算的平台。 Hadoop是以java寫成,可以提供大量資料的分散式運算環境,而且Hadoop的架構是由Google發表的BigTable及Google File System等文章提出的概念實做而成,所以跟Google內部使用的雲端運算架構相似。 Google Hadoop MapReduce Hadoop MapReduce GFS HDFS BigTable HBase Hadoop可分為運算及儲存兩大部份,前者由Map Reduce負責,後者則由HDFS負責。 2.Hadoop架構 Hadoop Core HDFS HBase MapReduce Hadoop系統架構圖 3. HDFS架構 Hadoop Distributed File System (HDFS) 將分散的儲存資源整合成一個具容錯能力、高效率且超大容量的儲存環境,在Hadoop系統中大量的資料和運算時產生的暫存檔案,都是存放在這個分散式的檔案系統上。 HDFS儲存的資料分散在不同的機器上,所以應用程式必須透過網路進入多台機器讀取資料,因此容易造成網路的阻塞,所以HDFS提供一個介面,讓應用程式將自己移動到資料存放的節點附近,除了可以減少網路負載,也可以增加系統的處理能力。 HDFS是master/slave架構,由三種角色組成 (1)名稱節點(Name node) 負責檔案系統中各個檔案屬性權限等資訊的管理及儲存 (2)資料節點(Data node) 處理使用者存取資料塊的請求,並定時回報資料塊之狀態給名稱節點 (3)第二名稱節點 3. HDFS架構 名稱節點 第二名稱節點 資料節點 HDFS的基本儲存單位稱為資料塊 HDFS中的檔案會被切割成一個循環的資料塊串列 而這些資料塊將會分散的儲存在每個資料節點上 3.1. HDFS的儲存方式 名稱節點 第二名稱節點 資料節點 2 2 3 4 1 3 4 1 檔案 使用者若需要存取HDFS上的檔案時,必須經過下列三個步驟 (1)使用者先將所要存取的資料名稱送至名稱節點 (2)名稱節點回傳該資料的相關資料給使用者 (3)使用者根據這些相關資料儲存資料節點中的資 料塊 3.2 HDFS的檔案存取 名稱節點 第二名稱節點 3 4 1 2 (1)檔案名稱 (2)檔案資料 (3)存取資料 5 資料節點 名稱節點失敗 由第二名稱節點來取代名稱節點 資料節點失敗 當某些資料節點發生錯誤時會選擇另一個包含該資料塊副本的資料節點進行存取。 3.3. HDFS的容錯機制 4. Hadoop MapReduce運作原理 Hadoop Map/Reduce是一個資料平行處理的程式設計模式,根據此模式開發程式,便可以自動在Ha- doop上達到平行化,以便分析巨量的數據資料。 4. Hadoop MapReduce運作原理 MapReduce可以分兩個步驟進行 (1)Map 透過一個Map函式將一組鍵/值(Key/Value)映射到暫時產生的另一組中間值/值,而此一中間值/值會傳送到Reduce函式。 (2)Reduce 將具有相同中間鍵的中間值會整在一起,進而產生所需的結果。 4. Hadoop MapReduce運作原理 Split Mapping Reducing Output Result map reduce Cat Dog Dog Pig Pig Cat Cat,1 Cat,1 Dog,1 map Pig,1 Cat,1 Dog,1 map Cat,1 Cat,1 Pig,1 Cat,1 Cat,1 reduce Dog,1 Dog,1 reduce Map Task1 Pig,1 Pig,1 Cat,2 Dog,2 Pig,2 Map Task2 Map Task3 Reduce Task1 Reduce Task2 Reduce Task3 File 4. Hadoop MapReduce運作原理 圖片來源: /2011/03/starting-sub-sandwitch-business.html 4.1 Hadoop MapReduce的特性 提供高可靠度的運算 各個資料片段沒有相依性,若有某節點發生錯誤 則Master會將該節點的工作重新分配給其他節點 去處理。 提供容錯機制 Master會監控Slav

文档评论(0)

suijiazhuang1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档