网站大量收购闲置独家精品文档,联系QQ:2885784924

大数据培训.pptx

  1. 1、本文档共143页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据培训大数据概念Hadoop介绍HDFSMAPREDUCE编程HIVEFLUMESTORMZOOKEEPER培训内容大数据定义大小超过常规的数据库工具获取、存储、管理和分析能力的数据集事务所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。四大特征:大量(Volume) 存储大; 计算量大;多样(Variety) 来源多; 格式多;快速(Velocity) 增长速度快 处理速度要求快价值(Value) 浪里淘沙却又弥足珍贵大数据概念大数据趋势Big Data 新量级、新处理模式、新企业智能People移动互联网Mobile InternetDevices物联网Internet of ThingsSensors大数据趋势对企业数据处理的挑战储存Storing每天几百 GB、 几 TB 的资料,且持续成长中计算Processing 在收数据的同时做必要的前置处理 (pre-processing),并区分数据处理的优先等级 (prioritizing)如何有效的避免因硬件毁坏所导致的资料损毁管理Managing分析Analyzing如何从中挖掘出所关注事件的 pattern 或 behavior对企业数据处理的挑战典型互联网大数据应用技术体系关键技术数据采集高效、智能的数据采集技术高效数据仓库技术(ETL)数据存储、计算大数据计算技术实时计算技术大数据存储技术机器学习规则、业务处理数据共享技术数据分析可视化技术数据服务典型互联网大数据应用技术体系组件用途说明MapReduce并行计算框架分布式数据处理模型和执行环境HDFS 存储分布式文件系统HIVE数据仓库一个分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基于 SQL的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据。sqoop数据抽取Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Spark并行计算框架Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。使用的语言是Scala。hbase存储数据库 一个分布式、按列存储数据库。HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)Pig数据流语言一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。ZooKeeper 分布式协调服务ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务Storm实时计算框架一个实时计算框架,与MapReduce离线计算框架互补,分别用于解决不同场景下的问题mahout机器学习库-提供一些可扩展的机器学习领域经典算法的实现AmbariHadoop集群监控Apache Ambari是一个供应、管理和监视Apache Hadoop集群的开源框架,它提供一个直观的操作工具和一个健壮的Hadoop API,可以隐藏复杂的Hadoop操作,使集群操作大大简化。大数据生态圈Hadoop介绍Hadoop 概况 Apache 开源项目 – 源于Lucene项目的一部分, 2006.1成为子项目, 现为Apache顶级项目之一 – Google的三篇论文MapReduce, GFS, BigTable– Yahoo! 是最主要的源代码贡献者, 其他贡献者: Powerset, Facebook 等 – 已知为接近150家的大型组织实际使用: Yahoo!, Amazon, EBay, AOL, Google, IBM, Facebook, Twitter, Baidu, Alibaba, Tencent, … (/hadoop/PoweredBy) Hadoop 核心功能 – 高可靠性, 高效率的分布式文件系统 – 一个海量数据处理的编程框架 Hadoop 特点– 可扩展性: Petabytes (1015 Bytes) 级别的数据量, 数千个节点 – 经济性: 利用商品级(commodity)硬件完成海量数据存储和计 -高效率:通过分发数据,可以在数据所在的节点上并行处理,使得处理效率变快 – 可靠性: 在大规模集群上提供应用级别的可靠性 Hadoop 概况关系数据库Hadoop资料量GB - TBTB - PB存取方式交互式与批次批次数据更新多次

文档评论(0)

2232文档 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档