大数据分析及应用项目教程(Spark SQL)(微课版) 课件 第1章 大数据分析概述.pptx

大数据分析及应用项目教程(Spark SQL)(微课版) 课件 第1章 大数据分析概述.pptx

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第1章大数据分析概述

关于大数据分析第一部分什么是大数据分析大数据分析可视化大数据分析工具

学习目标和要求1、了解大数据分析的概念、特点、类别、优缺点。2、知道大数据分析的相关工具。3、了解大数据分析可视化的概念及相关工具。

什么是大数据分析12345Volume(容量)Velocity(速度)Variety(种类)Value(价值)Veracity(真实性)1、大数据的“5V”特征

大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,大数据分析就是指对规模巨大的数据进行数据分析。什么是大数据分析2、大数据分析概念

数据分析量大1234数据处理速度快数据分析类型多数据价值密度低3、大数据分析的特点BigDataAnalysis5数据的可靠性低什么是大数据分析

什么是大数据分析4、大数据分析类别预测分析关注的是对未来事件的预测。预测性分析规范性分析是指在发生问题之后,根据问题诊断性分析之后,结合预测性分析,做出相应的优化建议和行动。规范性分析针对过去已经发生的事情,分析该事件产生的原因。诊断性分析描述性分析是描述过去的数据,基于历史数据描述发生了什么,对过去的大量历史数据进行汇总分析描述,以简单可读的方式进行呈现。描述性分析

为优质决策提供参考;提高产品开发创新力;改善客户服务体验;提升风险管理优势缺点信息透明化成本高数据质量低技术更新变化快什么是大数据分析5、大数据分析的优势与缺点

大数据分析工具(1)ApacheSpark:具有SparkSQL、Streaming实时计算、机器学习和SparkGraphX图计算的内置功能。(2)Hbase:HBase是一个基于HDFS的面向列的分布式数据库。(3)Storm:Storm是流处理的代表性实现之一。Storm具有低延迟、高性能、分布式、可扩展、容错、可靠性、快速等特点。(4)Flink:Flink是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。1、Hadoop生态圈中的大数据分析工具

123编程语言Scala语言:Scala语言是基于JVM运行环境、面向对象和函数式编程的完美结合Python语言:Python在数据分析领域也是一个强大的语言工具。R语言:是大数据分析工具之一,可用于科学计算、统计分析、数据可视化等。大数据分析工具2、大数据分析编程语言

RapidMiner其特点是拖拽操作,无需编程,运算速度快,具有丰富数据挖掘分析和算法功能,常用于解决各种商业关键问题。12MongoDB是一个基于分布式文件存储的数据库。旨在为WEB应用提供可扩展的高性能数据存储解决方案。大数据分析工具3、其他工具

数据可视化是利用计算机以图形图表的形式将原始的抽象信息和数据直观的表示出来。大数据分析可视化工具有很多,比如Zeppelin、PowerBI、Tableau、Spass等等。大数据分析可视化

认识SparkSQL第二部分SparkSQL背景简介SparkSQL运行原理

学习目标和要求1、了解SparkSQL的背景、特点。2、知道SparkSQL的运行架构。3、掌握Catalyst查询编译器的工作流程。4、掌握SparkSQL运行流程。

HiveSharkSparkSQLHive是最原始的SQL-on-Hadoop工具。是Facebook开发的构建于Hadoop集群之上的数据仓库应用,它提供了类似于SQL语句的HQL语句作为数据访问接口脱离了Hive的依赖,SparkSQL在数据兼容、组件扩展、性能优化方面都得到了极大的提升。Shark是使用Scala语言开发的开源SQL查询引擎。其设计目标是作为Hive的补充,性能比Hive提高了10-100倍。但是Shark对于Hive依旧存在很多的依赖。SparkSQL背景简介1、SparkSQL的背景

多种性能优化技术组件扩展性用户可以对SQL的语法解析器、分析器以及优化器进行重新定义和开发,并动态扩展。采用内存列存储(In-MemoryColumnarStorage),字节码生成技术(byte-codegeneration),CostModel对查询操作进行动态评估、获取最佳物理计划等。支持多种数据源可以在Hive上运行SQL或者HQL;可以从RDD、parquet文件、JSON文件中获取数据。SparkSQL背景简介2、SparkSQL的特点

SparkSQL背景简介多种性能优化技术内存列存储(In-MemoryColumnarStorage)JVM对象存储和内存列存储对比

SparkSQL背景简介多种性能优化技术字节码生成技术(byte-codegeneration)例如执行selecta+bfromtable这条命令

您可能关注的文档

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档