网站大量收购闲置独家精品文档,联系QQ:2885784924

大数据技术与应用 第2版 课件 第3章 数据采集与清洗;第4章 大数据存储.ppt

大数据技术与应用 第2版 课件 第3章 数据采集与清洗;第4章 大数据存储.ppt

  1. 1、本文档共219页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

(2)文件存储文件存储(NAS)相对块存储来说更能兼顾多个应用和更多用户访问,同时提供方便的数据共享手段。阿里云文件存储就是一种分布式的网络文件存储。(3)对象存储对象存储同时兼具SAN高级直接访问磁盘特点及NAS的分布式共享特点。它的核心是将数据通路(数据读或写)和控制通路(元数据)分离,并且基于对象存储设备(OSD),构建存储系统。大数据存储的方式大数据的存储方式主要有分布式存储、NoSQL数据库、NewSQL数据库以及云数据库四种。分布式存储分布式系统包含多个自主的处理单元,通过计算机网络互连来协作完成分配的任务,其分而治之的策略能够更好的处理大规模数据分析问题。(1)分布式文件系统分布式文件系统HDFS是一个高度容错性系统,被设计成适用于批量处理,能够提供高吞吐量的的数据访问。(2)分布式键值系统分布式键值系统用于存储关系简单的半结构化数据。典型的分布式键值系统有AmazonDynamo,以及获得广泛应用和关注的对象存储技术(ObjectStorage)也可以视为键值系统,其存储和管理的是对象而不是数据块。淘宝也自主开发的一个分布式键值存储引擎Tair。NoSQL数据库NoSQL数据库又叫作非关系数据库,它是英文“NotOnlySQL”的简写,即“不仅仅是SQL”。NoSQL一词最早出现于1998年,是CarloStrozzi开发的一个轻量、开源、不提供SQL功能的关系数据库。NoSQL数据库又叫作非关系数据库,它是英文“NotOnlySQL”的简写,即“不仅仅是SQL”。NoSQL一词最早出现于1998年,是CarloStrozzi开发的一个轻量、开源、不提供SQL功能的关系数据库。NoSQL不使用SQL作为查询语言,其存储也可以不需要固定的表模式,用户操作NoSQL时通常会避免使用RDBMS的JION操作。目前NoSQL数据库在以下的这几种情况下比较适用:(1)数据模型比较简单;(2)需要灵活性更强的IT系统;(3)对数据库性能要求较高;(4)不需要高度的数据一致性;(5)对于给定Key,比较容易映射复杂值的环境。NoSQL数据库的理论基础NoSQL数据库的三大理论基础分别是:CAP原则、BASE和最终一致性。CAP原则又称CAP定理,指的是在一个分布式系统中,Consistency(一致性)、Availability(可用性)、Partitiontolerance(分区容错性),三者不可得兼。BASE是BasicallyAvailable(基本可用)、Softstate(软状态)和Eventuallyconsistent(最终一致性)三个短语的简写。BASE是对CAP中一致性和可用性权衡的结果。最终一致性:服务器一致性是指更新如何复制分布到整个系统,以保证数据的最终一致。而客户端一致性是指在高并发的数据访问操作下,后续操作是否可以获取必威体育精装版的数据。易于数据的分散提升性能和增大规模NoSQL好处:希望顺畅地对数据进行缓存(Cache)处理希望对数组类型的数据进行高速处理希望进行全部保存主数据与元数据主数据是用来描述企业核心业务实体的数据,比如客户、合作伙伴、员工、产品、物料单、账户等;它是具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,并且存在于多个异构的应用系统中。一般来讲主数据可以包括很多方面,除了常见的客户主数据之外,不同行业的客户还可能拥有其他各种类型的主数据,例如:对于电信行业客户而言,电信运营商提供的各种服务可以形成其产品主数据元数据一般来讲,元数据主要用来描述数据属性的信息,例如记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态等。元数据是对数据本身进行描述的数据,或者说,它不是对象本身,它只描述对象的属性,就是一个对数据自身进行描绘的数据。例如,人们上网网购,想要买一件衣服,那么衣服就是数据,而挑选的衣服的色彩、尺寸、做工、样式等属性就是它的元数据。(她)年纪已经不轻,三十岁上下,个子高挑,身材匀称,黑黑的眉毛,红红的脸蛋--一句话

您可能关注的文档

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档