《大数据金融》 课件 第3章大数据相关技术.pptx

《大数据金融》 课件 第3章大数据相关技术.pptx

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第三章大数据相关技术Bigdatarelatedtechnologies大数据金融

CONTENTS01大数据存储bigdatastorage02大数据处理与计算Bigdataprocessingandcomputing03大数据挖掘方法Bigdataminingmethods

大数据存储bigdatastorage第一节

一、分布式文件系统分布式文件系统需要解决的关键技术问题包括可扩展性、数据冗余性、数据一致性、缓存等。常见的分布式文件系统有GFS、HDFS、Lustre、Ceph等,它们各自适用于不同的领域,其中GFS和HDFS最具有代表性。

一、分布式文件系统(一)HDFS系统的概念和特性第一,HDFS系统是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件。第二,HDFS系统是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。

一、分布式文件系统(一)HDFS系统的概念和特性不支持文件随机写入。需要客户端与HDFS交互。适合大文件读取场景。吞吐和并发能力具备可横向扩展性不适合高响应系统

一、分布式文件系统(二)HDFS的结构1.NameNodeNameNode是一个通常在HDFS实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。2.DataNodeDataNode也是一个独立运行的软件。通常以机架的形式组织,机架通过一个交换机将所有系统连接起来。3.ClientClient一般用于实现客户端文件存储的所有操作,包括文件的增删以及查询等。

一、分布式文件系统(三)HDFS文件写入与读取(1)客户端创建的文件,然后Client通过RPC方式与NameNode通信,创建一个新文件映射关系。(2)客户端写数据:FSDataOutputStream把写入的数据分成包(packet)并放入一个中间队列——数据队列(dataqueue)中。(3)FSDataOutputStream也维护着确认队列(ackqueue)。(4)所有文件写入完成后,关闭文件写入流。

二、非关系型分布式数据库非关系型分布式数据库(notonlysQL,NoSQL)是分布式存储的主要技术。相比于传统数据库,它的主要特点包括易扩展、灵活的数据模型、高可用性、大数据量、高性能等。(一)NoSQL简介与特性1.不需要预定义模式2.BASE特性3.分区4.异步复制5.弹性可扩展

二、非关系型分布式数据库(二)NoSQL的分类1.列存储数据库(1)HBase基于HadoopHDFSappend方式进行数据追加操作,非常适合列族文件存储架构。(2)HBase写请求,都会先写redolog,然后更新内存中的缓存。(3)当某一列的MapFile数量超过配置的阈值时,一个后台线程就开始将现有的MapFile合并为一个文件,这个操作称为Compaction。(4)读操作会先检查缓存,若未命中,则从必威体育精装版的MapFile开始,依次往最老的MapFile找数据。

二、非关系型分布式数据库(二)NoSQL的分类列存储数据库键值存储数据库文档型数据库图数据库1234

三、虚拟存储技术与云存储技术(一)虚拟存储技术虚拟存储技术是指将存储系统的内部功能从应用程序、计算服务器、网络资源中进行抽象、隐藏或隔离,最终使其独立于应用程序、网络存储与数据管理。(二)云存储技术云存储是一种以数据存储和管理为核心的云计算系统,它是指利用集群应用、分布式文件和网络技术系统等功能,通过应用软件协同网络中大量的各种不同类型的存储设备,共同建设一个具有数据存储和业务访问功能的系统,以保证数据的安全性,节约存储空间。

大数据处理与计算Bigdataprocessingandcomputing第二节

一、基于并行计算的分布式数据处理技术HadoopMapReduce是一种分布式海量数据处理框架。它采用主从结构,在一个MapReduce集群中有一个控制节点和多个工作节点。设计思想:其一,大规模数据并行处理,即“分而治之”的思想;其二,MapReduce编程模型;其三,分布式运行时环境。

二、分布式内存计算处理技术对于一些需要快速实时分析的业务操作,需要快速地对必威体育精装版的业务数据进行分析处理。在线实时分析计算框架是为集群计算中特定类型的工作负载而设计的,引进了内存集群计算的概念。Spark引进了名为弹性分布式数据集(resilientdistributeddatasets,RDD)的抽象。RDD是分布在一组节点中的只读对象集合。这些集合是弹性的,如果数据集的一部分丢失,则可以对它们进行重建。

三、分布式流

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档