《商务大数据分析与应用》课件——3-3-1大数据时代的存储系统系统.pptxVIP

下载本文档

0
0
约8.49千字
约 64页
2024-08-14 发布于中国
举报
版权申诉

《商务大数据分析与应用》课件——3-3-1大数据时代的存储系统系统.pptx

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、本文档共64页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据存储;在普通PC中，目前已经被广泛使用的存储管理系统有普通的文件系统、键-值数据库和关系型数据库。

在大数据时代，普通PC的存储容量已经无法满足大数据需求，需要进行存储技术的变革，我们采用分布式平台来存储大数据。;2．操作系统和文件系统的关系

文件系统是操作系统用于存储设备（磁盘）或分区上的文件的方法和数据结构，即在存储设备上组织文件的方法。

操作系统中负责管理和存储文件信息的软件机构被称为文件管理系统，简称文件系统。文件系统是对文件存储设备的空间进行组织和分配，负责文件存储并对存入的文件进行保护和检索的系统。具体地说，它负责为用户建立文件，允许用户进行存入、读出、修改等操作。;2分布式文件系统

1．分布式文件系统简介

普通文件系统的存储容量有限，但是大数据一般都是海量数据，无法在以前的普通文件系统进行存储。

分布式文件系统把文件分布存储到多个计算机节点上，成千上万的计算机节点构成计算机集群。和以前使用多个处理器和专用高级硬件的并行化处理装置不同的是，目前的分布式文件系统所采用的计算机集群，都是由普通硬件构成的，这就大大降低了硬件上的成本开销。

计算机集群的基本架构如图所示。;图计算机集群的基本架构;2．分布式文件系统的整体结构

如图?4-12?所示，分布式文件系统在物理结构上是由计算机集群中的多个节点构成的。这些节点分为两类，一类叫“主节点（MasterNode）”或者也被称为“名称节点（NameNode）”，另一类叫“从节点（SlaveNode）”或者也被称为“数据节点（DataNode）”。

;图分布式文件系统的整体结构;3．Apache下的分布式文件系统

Hadoop是Apache软件基金会旗下的一个分布式系统基础架构。Hadoop框架最核心的设计就是HDFS、MapReduce，为海量的数据提供存储和计算。

MapReduce主要运用于分布式计算，HDFS主要是Hadoop的存储，用于海量数据的存储。HDFS?是一个分布式文件系统，具有高容错的特点。它可以部署在廉价的通用硬件上，提供高吞吐率的数据访问，适合那些需要处理海量数据集的应用程序。

HDFS使用的是传统的分级文件体系，因此，用户可以像使用普通文件系统一样，创建、删除目录和文件，在目录间转移文件，重命名文件等。

;在HDFS中，一个文件被分成多个块，以块作为存储单位，块的作用如下。

（1）支持大规模文件存储

（2）简化系统设计

（3）适合数据备份

;HDFS采用了主从（Master/Slave）结构模型，如图4-13所示。一个HDFS集群包括一个名称节点（NameNode）和若干个数据节点（DataNode）。

名称节点作为中心服务器，负责管理文件系统的命名空间及客户端对文件的访问。

集群中的数据节点负责处理客户端的读/写请求，在名称节点的统一调度下进行数据块的创建、删除和复制等操作。

每个数据节点的数据实际上是保存在本地Linux文件系统中的。;图HDFS的体系结构;图HDFS主要组件的功能;（1）NameNode

名称节点（NameNode）存储元数据，元数据被保存在内存中（磁盘上也保存了一份），保存文件Block、DataNode之间的映射关系；NameNode记录了每个文件中各个块所在的DataNode的位置信息。

元数据的内容包括文件的复制等级、修改和访问时间、访问权限、块大小及组成文件的块。对目录来说，NameNode存储修改时间、权限和配额元数据。;（2）DataNode

数据节点（DataNode）负责数据的存储和读取，数据被保存在磁盘中，维护BlockId到DataNode本地文件的映射关系。DataNode定期向NameNode发送Block信息以保持联系，如果NameNode在一定的时间内没有收到DataNode的Block信息，则认为DataNode已经失效了，NameNode会复制其上的Block到其他DataNode。;3数据库

数据库（DataBase）就是一个存放数据的仓库。这个仓库是按照一定的数据结构（数据结构是数据的组织形式或数据之间的联系）来组织、存储的，我们可以通过数据库提供的多种方式来管理数据库里的数据。

数据库家族如图所示。;图数据库家族;1．关系型数据库

关系型数据库把复杂的数据结构归结为简单的二元关系（即二维表格形式）。

在关系型数据库中，程序对数据的操作几乎全部建立在一个或多个关系表格上，即程序通过对这些关联表的表格分类、合并、连接或选取等运算来实现对数据的管理。

;2．非关