网站大量收购闲置独家精品文档,联系QQ:2885784924

Spark大数据分析 课件 第1章 大数据与Spark简介.pptx

Spark大数据分析 课件 第1章 大数据与Spark简介.pptx

  1. 1、本文档共40页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

大数据简介与相关技术

目录/Contents01大数据简介02大数据相关技术

大数据简介01

大数据简介大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到获取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

大数据简介Volume(大量):数据量大,截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类总共说过的话的数据量大约是5EB。Variety(多样):种类和来源多样化。这种类型的多样性也让数据被分为结构化数据和非结构化数据。Value(低价值密度):价值密度的高低与数据总量的大小成反比。Velocity(高速):数据增长速度快,处理速度也快,时效性要求高。这是大数据区分于传统数据挖掘的最显著特征。Veracity:信数据的准确性和可信赖度,即数据的质量。

大数据相关技术02

大数据相关技术大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先科学的给出一个通用化的大数据处理技术框架,主要分为下面几个方面:数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。

大数据相关技术数据采集与预处理对于各种来源的数据包括移动互联网数据、社交网络的数据等,这些结构化和非结构化的海量数据是零散的,也就是所谓的数据孤岛,此时的这些数据并没有什么意义,数据采集就是将这些数据写入数据仓库中,把零散的数据整合在一起,对这些数据综合起来进行分析。数据采集包括文件日志的采集、数据库日志的采集、关系型数据库的接入和应用程序的接入等。在数据量比较小的时候,可以写个定时的脚本将日志写入存储系统,但随着数据量的增长,这些方法无法提供数据安全保障,并且运维困难,需要更强壮的解决方案。

大数据相关技术数据存储Hadoop作为一个开源的框架,专为离线和大规模数据分析而设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。数据清洗MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行计算,”Map(映射)”和”Reduce(归约)”,是它的主要思想。它极大的方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统中。

大数据相关技术数据查询分析Hive的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供HQL(HiveSQL)查询功能。Impala是对Hive的一个补充,可以实现高效的SQL查询。使用Impala来实现SQLonHadoop,用来进行大数据实时查询分析。Spark拥有HadoopMapReduce所具有的特点,它将Job中间输出结果保存在内存中,从而不需要读取HDFS。Nutch是一个开源Java实现的有哪些信誉好的足球投注网站引擎。它提供了我们运行自己的有哪些信誉好的足球投注网站引擎所需的全部工具,包括全文有哪些信誉好的足球投注网站和Web爬虫。Solr用Java编写、运行在Servlet容器(如ApacheTomcat或Jetty)的一个独立的企业级有哪些信誉好的足球投注网站应用的全文有哪些信誉好的足球投注网站服务器。Elasticsearch是一个开源的全文有哪些信誉好的足球投注网站引擎,基于Lucene的有哪些信誉好的足球投注网站服务器,可以快速的储存、有哪些信誉好的足球投注网站和分析海量的数据。

大数据相关技术数据可视化对接一些BI平台,将分析得到的数据进行可视化,用于指导决策服务。主流的BI平台比如,国外的敏捷BITableau、Qlikview、PowrerBI等,国内的SmallBI和新兴的有数BI等。控制权限的ranger是一个Hadoop集群权限框架,提供操作、监控、管理复杂的数据权限,它提供一个集中的管理机制,管理基于yarn的Hadoop生态圈的所有数据权限。可以对Hadoop生态的组件如Hive,Hbase进行细粒度的数据访问控制。通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问HDFS文件夹、HDFS文件、数据库、表、字段权限。这些策略可以为不同的用户和组来设置,同时权限可与hadoop无缝对接。

感谢大家的聆听

Spark简介

目录/Contents01Spark特性02Spark的历史与发展01Spark组件

Spark特性01

Spark特性运行速度快面向磁盘的MapReduce受限于磁盘读/写性能和网络I/O性能的约束,在处理迭代计算、实时计算、交互式数据查询等方面并不高效,但

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档