- 1、本文档共31页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
高负载系统相关技术初探
Hadoop开始时是Nutch的一个子项目,而Nutch又是Apache Lucene的一个子项目。 这3个项目都是由Doug Cutting所创立的,每个项目在逻辑上都是前一个项目的演进。 Lucene是一个功能全面的文本索引和查询库。 作为Lucene的扩展,Nutch的目标可谓雄心勃勃,它试图以Lucene为核心建立一个完整的Web有哪些信誉好的足球投注网站引擎。Nutch为HTML提供了解析器,还具有网页抓取工具、链接图形数据库和其他网络有哪些信誉好的足球投注网站引擎的额外组件。Doug Cutting所设想的Nutch是开放与民主的,可以替代Google等商业产品的垄断技术。除了增加了像抓取器和解析器这样的组件,网络有哪些信誉好的足球投注网站引擎与基本的文档有哪些信誉好的足球投注网站引擎的区别就在于规模。 Lucene的目标是索引数百万的文档,但Nutch应该能够处理数十亿的网页,而不会带来过度的操作开销。这样Nutch就得运行在由商用硬件组成的分布式集群上。Nutch团队面临的挑战是解决软件可扩展性问题,即要在Nutch中建立一个层,来负责分布式处理、冗余、自动故障恢复和负载均衡。这些挑战绝非易事。 在2004年左右,Google发表了两篇论文来论述Google文件系统(GFS)和MapReduce框架。Google声称使用了这两项技术来扩展自己的有哪些信誉好的足球投注网站系统。Doug Cutting立即看到了这些技术可以适用于Nutch,接着他的团队实现了一个新的框架,将Nutch移植上去。这种新的实现马上提升了Nutch的可扩展性。它开始能够处理几亿个网页,并能够运行在几十个节点的集群上。Doug认识到设计一个专门的项目可以充实两种网络扩展所需的技术,于是就有了Hadoop。 HDFS为了做到可靠性(reliability)创建了多份数据块(data blocks)的复制(replicas),并将它们放置在服务器群的计算节点中(compute nodes),MapReduce就可以在它们所在的节点上处理这些数据了。 NameNode DataNode HDFS采用master/slave架构。一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。Namenode是一个中心服务器,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。集群中的Datanode一般是一个节点一个,负责管理它所在节点上的存储。HDFS暴露了文件系统的名字空间,用户能够以文件的形式在上面存储数据。从内部看,一个文件其实被分成一个或多个数据块,这些块存储在一组Datanode上。Namenode执行文件系统的名字空间操作,比如打开、关闭、重命名文件或目录。它也负责确定数据块到具体Datanode节点的映射。Datanode负责处理文件系统客户端的读写请求。在Namenode的统一调度下进行数据块的创建、删除和复制。 Namenode是一个中心服务器,单一节点(简化系统的设计和实现),负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。 文件操作,NameNode负责文件元数据的操作,DataNode负责处理文件内容的读写请求,跟文件内容相关的数据流不经过NameNode,只会询问它跟那个DataNode联系,否则NameNode会成为系统的瓶颈 一个数据块在DataNode以文件存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳 DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。 心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个DataNode 的心跳,则认为该节点不可用。 Job Tracker Job Tracker(Google 称为Master)是负责管理调度所有作业,它是整个系统分配任务的核心。它也是唯一的,这与HDFS 类似。因此,简化了同步流程问题。 Task Tracker Task Tracker 具体负责执行用户定义操作,每个作业被分割为任务集,包括Map任务和Reduce 任务。任务是具体执行的基本单元, Task Tracker 执行过程中需要向Job Tracker 发送心跳信息,汇报每个任务的执行状态,帮助Job Tracker 收集作业执行的整体情况,为下次任务分配提供依据。 在Hadoop 中,客户端(任务的提交者)是一组API,用户需要自定义自己需要的内容,由客户端将作业及其配置提交到Job Tracker,并监控执行状况。 与HDFS 的通信机制相同,Hadoop Map/Reduce 也使用协议接口来实现服务器间的通信。实现者
您可能关注的文档
- 高等数学第六章5.ppt
- 高等钢结构作业-1.docx
- 各具特色的民居_精彩优秀课件概要.ppt
- 各支部填写说明概要.ppt
- 高等数学-第七版-课件-21-6 重积分的应用.ppt
- 高级技师论文阀门典型产品的制造工艺.doc
- 高级工理论试题(选择题).doc
- 高级人工智能——第6讲计算智能.ppt
- 高压柜原理.ppt
- 高级英语1Unit 1.ppt
- 2025年中国铸管沥青漆喷涂机市场调查研究报告.docx
- 2025至2031年中国聚四氟乙割管料行业投资前景及策略咨询研究报告.docx
- 2025至2031年中国屏蔽箱行业投资前景及策略咨询研究报告.docx
- 2025年中国B级电源电涌保护器市场调查研究报告.docx
- 2025至2031年中国陶瓷印章行业投资前景及策略咨询研究报告.docx
- 2025至2031年中国保冷材料行业投资前景及策略咨询研究报告.docx
- 2025至2031年中国金彩立雕玻璃行业投资前景及策略咨询研究报告.docx
- 2025至2030年中国机箱螺母柱数据监测研究报告.docx
- 2025至2030年中国小GS管装饰头数据监测研究报告.docx
- 2025至2030年中国气动电阻焊机数据监测研究报告.docx
最近下载
- 2024-2025学年高二下学期物理人教版(2019)选修第二册——互感和自感(课件).pptx VIP
- 机械制造业的环境保护知识讲解.ppt
- 2024国家能源集团纪律检查中心招聘53人笔试模拟试题及答案解析.docx
- 学前特殊儿童教育(全套课件558P).docx
- 2024年湖南水利水电职业技术学院单招职业技能测试题库含答案(考试直接用).docx VIP
- 2023年中国石油化工行业现状分析及发展趋势观察报告.pdf VIP
- 阿尔茨海默病早期筛查新进展和智能监测技术学习班题库答案-2024华医网继续教育.docx VIP
- 个体工商户转让协议样本5篇.docx
- 湘教版劳动实践五年级上册劳动实践第一单元任务3《整理冰箱》课件.pptx
- Unit 3 Learning better教案 人教PEP英语(2025)三年级下册.docx VIP
文档评论(0)