hadoop簡介.pptVIP

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
hadoop簡介

自由軟體實驗室 * Hadoop 簡介 王耀聰 陳威宇 Jazz@.tw waue@.tw 國家高速網路與計算中心(NCHC) * 看了這麼多雲端服務 但….. 是否有一套能夠 開放給大家使用 的雲端平台呢?? * * * Eucalyptus University of California, Santa Barbara / Sector The National Center for Data Mining (NCDM) / Thrift Facebook /thrift/ The Other Open Source Projects: * Hadoop ? Hadoop is a software platform that lets one easily write and run applications that process vast amounts of data 什麼是 Hadoop * Hadoop 以Java開發 自由軟體 上千個節點 Petabyte等級的資料量 創始者 Doug Cutting 為Apache 軟體基金會的 top level project 什麼是 Hadoop * 特色 巨量 擁有儲存與處理大量資料的能力 經濟 可以用在由一般PC所架設的叢集環境內 效率 籍由平行分散檔案的處理以致得到快速的回應 可靠 當某節點發生錯誤,系統能即時自動的取得備份資料以及佈署運算資源 有什麼特色 * 起源:2002-2004 Lucene 用Java設計的高效能文件索引引擎API 索引文件中的每一字,讓搜尋的效率比傳統逐字比較還要高的多 Nutch nutch是基於開放原始碼所開發的web search 利用Lucene函式庫開發 有什麼特色 * 起源:Google論文 Google File System SOSP 2003 : “The Google File System” OSDI 2004 : “MapReduce : Simplifed Data Processing on Large Cluster” OSDI 2006 : “Bigtable: A Distributed Storage System for Structured Data” 可擴充的分散式檔案系統 大量的用戶提供總體性能較高的服務 對大量資訊進行存取的應用 運作在一般的普通主機上 提供錯誤容忍的能力 怎麼 來的 * 起源:2004~ Dong Cutting 開始參考論文來實做 Added DFS MapReduce implement to Nutch Nutch 0.8版之後,Hadoop為獨立項目 Yahoo 於2006年僱用Dong Cutting 組隊專職開發 Team member = 14 (engineers, clusters, users, etc. ) 2009 年跳槽到Cloudera 怎麼 來的 * 誰在用Hadoop Yahoo 為最大的贊助商 IBM 與 Google 在大學開授雲端課程的主要內容 Hadoop on Amazon Ec2/S3 More…: 有誰 在用 * Hadoop於yahoo的運作資訊 Sort benchmark, every nodes with terabytes data. 實用案例 * Hadoop於yahoo的部屬情形 資料標題:Yahoo! Launches Worlds Largest Hadoop Production Application 資料日期:February 19, 2008 實用案例 * Hadoop於yahoo的部屬情形 Total Nodes 4000 Total cores 30000 Data 16PB 資料標題:Scaling Hadoop to 4000 nodes at Yahoo! 資料日期:September 30, 2008 ? 500-node cluster 4000-node cluster ? write read write read number of files 990 990 14,000 14,000 file size (MB) 320 320 360 360 total MB processes 316,800 316,800 5,040,000 5,040,000 tasks per node 2 2 4 4 avg. throughput (MB/s) 5.8 18 40 66 實用案例 * Hadoop 與google的對應 Develop Group Google Apache Sponsor Google Ya

文档评论(0)

cynthia_h + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档