Spark简介和Mllib库入门.pptx

下载文档 降价啦

6
0
约2.24千字
约 29页
2016-12-20 发布于湖北
举报
版权申诉
保障服务

Spark简介和Mllib库入门.pptx

1、本文档共29页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Spark简介和Mllib机器学习库入门目录Spark简介前言示例RDD特性谢谢！算子目录Spark简介前言示例RDD特性谢谢！算子1你能区分么？数据分析？Hive、数据仓库、多维分析等数据研发？Mapreduce离线处理、storm流处理等数据挖掘？机器学习库（sklearn、mahout、Mllib等）和其他目录Spark简介前言示例RDD特性谢谢！算子目录Spark简介前言示例RDD特性谢谢！算子支持语言：ScalaJavaPythonR库：Spark StreamingDataFrames and SQLMllib（Machine Learning）GraphX（Graph Processing）Bagel（Pregel on Spark）SparkR（R on Spark）功能组件可以直接读取hdfs等分布式文件系统上存储的数据BDAS——伯克利数据分析协议栈Hadoop写数据时，默认备份几份？迭代计算。在这个场景下，Hadoop需要多次读写HDFS（磁盘），造成了大量的IO和序列化、反序列化等额外开销。此外，每次写HDFS都需要备份，因此造成了备份方面的开销。HDFS同批数据的多维度查询。对HDFS同一批数据做成百或上千维度查询时，Hadoop每次做一个独立的query，也就是每次都要从磁盘读取这个数据。因为每次都从磁盘中读取同一组数据，效率显然可以继续提高。而在这两种场景中，Spark可以使用内存缓存中间/常用数据，从而在避免磁盘IO开销的同时，还将大幅度提高性能。Spark vs. MapReduce目录Spark简介前言示例RDD特性谢谢！算子目录Spark简介前言示例RDD特性谢谢！算子 RDD的产生RDDs can only be created through deterministic operations on either (1) data in stable storage or (2) other RDDs.示例： RDD：narrow / wide dependenciesnarrow dependencies, where each partition of the parent RDD is used by at most one partition of the child RDD;wide dependencies, where multiple child partitions may depend on it.WideQuestion:Narrow RDD容错首先，narrow dependencies可以支持在同一个cluster node上以管道形式执行多条命令，例如在执行了map后，紧接着执行filter。相反，wide dependencies需要所有的父分区都是可用的，可能还需要调用类似MapReduce之类的操作进行跨节点传递。其次，则是从失败恢复的角度考虑。narrow dependencies的失败恢复更有效，因为它只需要重新计算丢失的parent partition即可，而且可以并行地在不同节点进行重计算。而wide dependencies牵涉到RDD各级的多个Parent Partitions。下图说明了narrow dependencies与wide dependencies之间的区别： RDD包含信息a set of partitions, which are atomic pieces of the dataseta set of dependencies on parent RDDsa function for computing the dataset based on its parentsmetadata about its partitioning scheme and dataplacement目录Spark简介前言示例RDD特性谢谢！算子目录Spark简介前言示例RDD特性谢谢！算子 transformationmapfilterreduceByKeyflatMap action无输出：foreachHDFS：saveAsTextFile、saveAsObjectFileScala集合和数据类型：collect、count、reducereduce：reduce将RDD中元素两两传递给输入函数，同时产生一个新的值，新产生的值与RDD中下一个元素再被传递给输入函数直到最后只有一个值为止。例子：目录Spark简介前言示例谢谢！算子RDD特性目录Spark简介前言示例RDD特性谢谢！算子 Talk is cheap, show me the code. word countQuestion:Word count中首先要对每一行文字按照分隔符分