- 1、本文档共14页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
极融并行集群文件系统技术白皮书
2018.2.11
1. ParaFS 设计目标
极融并行集群文件系统(ParaFS),是专门为大中型大数据平台打
造的超大规模文件存储系统;支持高达1000PB 级的文件存储。主要的
应用场景是大规模语义里的热数据处理。完全兼容Hadoop 生态;考虑
性能和稳定的原因,可无缝替换hadoop 生态中的HDFS;考虑“去IOE”
政策,ParaFS 同样可以无缝替换Google 大数据平台中的GFS2。
ParaFS的设计目标旨在把大批量普通的、不可靠的、廉价的服
务器组织起来,向外提供海量的、无差别的、高可用的数据处理服务。
从外部的角度看,ParaFS如同一个巨大的,有序的,可伸缩的存储资
源池,同时也具备大规模的抽象化计算能力。因而,ParaFS从宏观角
度上来说分成两部分,一部分是把硬件资源组织起来,变成一个可统
一调度的资源;另一部分把资源抽象化后,组织成标准的文件系数统
接口。从外部的角度看,ParaFS的运行实体是一个存储集群,一个集
群是一个整体的存储单位,不管集群由多少台物理计算机组成。
总结为以下几个要点:
1. 支持商用场景的海量文件存储系统;
2. 信息安全贯穿整个产品生命周期;
3. 支持1000PB 级的文件存储;
4. 支持超大型文件,也支持海量超小文件;
5. 支持在线扩容,支持弹性扩容;
6. 兼容hadoop 生态(支持hadoop fs 接口),也支持仿posix 接口。
2. 极融并行集群文件系统解决什么问题
在开源大数据基础平台Hadoop 中,有两个主要的子系统:Hadoop
分布式文件系统 HDFS 和 Hadoop Map/Reduce ;hadoop HDFS 通过
Namenode 来维护整个文件系统的索引信息;对于任何一个HDFS 文件,
Namenode 会在内存中维护两种meta data:第一种:1)HDFS 文件和
block 的对应关系,2)block 在data node 上存放的位置。Namenode
会在磁盘上保存第一种meta data,第二种:meta data 则是DataNode
通过block report 定时发送给NameNode。以上架构虽然简洁明了,
但也出现以下三个问题:
1. 性能问题, 一系列测试发现,尤其是同硬件的理论性能相比,
Hadoop 在性能上还有很大的提高空间,造成这个的原因主要有:
在当前Hadoop 的设计中,所有的meta data 操作都要通过集中式
的Namenode 来进行,Namenode 有可能是性能的瓶颈;M/R 应用程
序需要通过DataNode 来访问HDFS, 这就涉及到频繁的进程切换和
网络传输开销;还有在M/R 应用程序端的开销也有值得改进的地
方。
2. 可扩展性和可靠性,当前的 Hadoop 采用单一 Namenode ,单一
Jobtracker 的设计,严重制约了整个 Hadoop 的可扩展性和可靠
性。首先,Namenode 和Jobtracker 是整个系统中明显的单点故障
源(SPOF)。其次,单一Namenode 的内存容量有限,使得Hadoop
集群的节点数量被限制到2000 个左右,能支持的文件系统大小被
限制在10-50PB, 最多能支持的文件数量大约为1.5 亿左右(注:
实际数量取决于Namenode 的内存大小)。并且集中式的Namenode
使得DataNode 的blocks report 也会对Namenode 的性能造成严
重的影响。例如:系统有1800 个Datanode,每个Datanode 有3T
存储,整个集群大约有 1.8P 有效存储(1800*3T/3,假设每个数
据块有3 份replica)。那么每个Datanode 上有大约50000 个左右
的block (假设block 大小是64M,然后有的block 并没有达到
64M 大小),假设Datanode 每小时会发送一次block report, 那
么Namenode 每两秒会收到一次block report,每个block report
包含50000 条数据,处理这些数据无疑会占用相当资源。实际上,
有用户抱怨其集群的Namenode 重启需要数小时,这大大降低了系
统的可用性。
3. 各种企业
您可能关注的文档
- 色盲检测图(第五版)-欧诺眼镜完善.ppt
- 赏析张永和的山语间别墅.ppt
- 上睑下垂的病因、诊断和鉴别诊断.ppt
- 少见病因脑梗死的诊断和鉴别诊断.ppt
- 国际民航组织附件19.pdf
- 社区及家庭无障碍环境的改造.ppt
- 国内航行船舶必须配备的药品.pdf
- 深度剖析:肺腺癌是如何分期的.ppt
- 神经系统运动功能检查(完整).ppt
- 国内盐湖卤水提取碳酸锂生产工艺及现状.pdf
- 第九章 销售与收款循环审计 .pdf
- 1.9《体积单位间的进率》说课(课件)-2024-2025学年六年级上册数学苏教版.pptx
- 长方体和正方体的体积计算(课件)-2023-2024学年人教版五年级数学下册.pptx
- 第二次月考素养提升卷(5~6单元)(试题)-2024-2025学年五年级数学上册人教版.docx
- 4.表内乘法(一)(乘加、乘减)(课件)-2024-2025学年二年级上册数学人教版.pptx
- 表内乘法(7的乘法口诀)(课件)-2024-2025学年二年级上册数学人教版.pptx
- 吨的认识(课件)-2024-2025学年三年级上册数学人教版.pptx
- 期中检测卷(试题)-2024-2025学年五年级上册语文统编版.docx
- 第七单元《扇形统计图》思维拓展练习(课件)-2024-2025学年六年级上册数学人教版.pptx
- 本文中来自ASME BPE标准委员会的现任委员将一一为您答疑解惑 .pdf
文档评论(0)