- 1、本文档共104页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2016年11月
岳凯
Spark 2 学习总结
目 录
I
大数据基本概念
II
Spark基本知识
Spark数据分析案例
IV
III
Spark进阶知识
大数据基本概念
大数据的5V特点(IBM提出):
Volume(大量)
Velocity(高速)
Variety(多样)
Value(价值)
Veracity(真实性)
大数据不解释因果关系,只关心相关性
大数据基本概念
Google三篇论文,奠定了大数据算法的基础
2003年,发布Google File System论文
这是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用,运行于廉价的普通硬件上,提供容错功能。从根本上说:文件被分割成很多块,使用冗余的方式储存于商用机器集群上。
2004年,发布 MapReduce论文
论文描述了大数据的分布式计算方式,主要思想是将任务分解后在多台处理能力较弱的计算节点中同时处理,然后将结果合并从而完成大数据处理。
2006年,发布 Bigtable论文,
启发了无数的NoSQL数据库,如:Cassandra、HBase、MongoDB等等。
大数据基本概念
互联网大数据的典型代表包括:
用户行为数据:精准广告投放、内容推荐、行为习惯和喜好分析、产品优化等
用户消费数据:精准营销、信用记录分析、活动促销、理财等
用户地理位置数据:O2O推广,商家推荐,交友推荐等
互联网金融数据:P2P,小额贷款,支付,信用,供应链金融等
用户社交等UGC数据:趋势分析、流行元素分析、受欢迎程度分析、舆论监控分析、社会问题分析等
大数据基本概念-Hadoop生态系统
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。
Hadoop的核心的设计是:HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算。
大数据基本概念-Hadoop-HDFS
HDFS(Hadoop分布式文件系统)
源自于Google的GFS论文,HDFS是GFS克隆版。
HDFS是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。
HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。
它提供了一次写入多次读取的机制,数据以块的形式,同时分布在集群的不同物理机器上。
大数据基本概念-Hadoop-MapReduce
MapReduce(分布式计算框架)
源自于google的MapReduce论文,Hadoop MapReduce是google MapReduce 克隆版。
MapReduce是一种分布式计算模型,用以进行大数据量的计算。它屏蔽了分布式计算框架细节,将计算抽象成map和reduce两部分,其中Map对数据集上的独立元素进行指定的操作,生成键值对形式的中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。
MapReduce非常适合在大量计算机组成的分布式并行环境里进行数据处理。
大数据基本概念-Hadoop-HBASE
HBASE(分布式列存数据库)
源自Google的Bigtable论文,HBase是Google Bigtable克隆版
HBase是一个建立在HDFS之上,面向列的,针对结构化数据的可伸缩、高可靠、高性能、分布式的动态模式数据库。
HBase采用了BigTable的数据模型:增强的稀疏排序映射表(Key/Value),其中,键由行关键字、列关键字和时间戳构成。
HBase提供了对大规模数据的随机、实时读写访问。HBase中保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在一起。
大数据基本概念-Hadoop-Zookeeper HIVE
Zookeeper(分布式协作服务)
解决分布式环境下的数据管理问题:统一命名,状态同步,集群管理,配置同步等。
Hadoop的许多组件依赖于Zookeeper,它运行在计算机集群上面,用于管理Hadoop操作。
HIVE(数据仓库)
Hive定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行。通常用于离线分析。
HQL用于运行存储在Hadoop上的查询语句,Hive让不熟悉MapReduce的开发人员也能编写数据查询语句,然后这些语句被翻译为Hadoop上面的MapReduce任务。
大数据基本概念-Hadoop-Yarn
Yarn(分布式资源管理器
您可能关注的文档
最近下载
- 秋冬季常见传染病预防 ppt课件.pdf
- GB 55009-2021 燃气工程项目规范.pdf
- 液体石油产品烃类的测定-荧光指示剂吸附法(GB-T11132-2008).ppt
- 上海市病媒生物密度控制水平评估技术方案.doc VIP
- 高空作业车售后服务方案.docx
- 2024-2025学年河北省沧州市泊头市第一中学高二(上)月考物理试卷(9月)(含答案).docx
- 自-机械制造技术基础课程设计说明书 .doc VIP
- 53个经典病例分析及答案.doc VIP
- [职高 对口升学] 2021年重庆高职分类考试 文化素质测试 真题.pdf VIP
- 电子技术基础数字部分(第7版)康华光习题解析.pdf
文档评论(0)