ApacheSpark2.0重大功能介绍.PDF

下载文档

17
0
约4.98千字
约 5页
2017-05-02 发布于天津
举报
版权申诉
保障服务

ApacheSpark2.0重大功能介绍.PDF

1、本文档共5页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Apache Spark 2.0重大功能介绍 Spark大数据博客 - Apache Spark 2.0重大功能介绍 Apache Spark 2.0发布信息可以参见《Apache Spark 2.0.0正式发布及其功能介绍》我们很荣幸地宣布，自7月26日起Databricks开始提供Apache Spark 2.0的下载，这个版本是基于社区在过去两年的经验总结而成，不但加入了用户喜爱的功能，也修复了之前的痛点。本文总结了Spark 2.0的三大主题：更简单、更快速、更智能，另有Spark 2.0内容的文章汇总介绍了更多细节。两个月前，Databricks发布了Apache Spark 2.0的技术预览版，如下表所见，目前我们有10% 的集群都在使用这个版本，根据客户使用新版的经验及反馈意见，新版得以发布，Databricks很开心能成为Spark 2.0的首个商业供应商。现在，我们来深入了解一下Apache Spark 2.0的新特性。更简单：ANSI SQL与更合理的API Spark让我们引以为豪的一点就是所创建的API简单、直观、便于使用，Spark 2.0延续了这一传统，并在两个方面凸显了优势： 1、标准的SQL支持； 2、数据框（DataFrame）/Dataset （数据集）API的统一。在SQL方面，我们已经对Spark的SQL功能做了重大拓展，引入了新的ANSI 1 / 5 Apache Spark 2.0重大功能介绍 Spark大数据博客 - SQL解析器，并支持子查询功能。Spark 2.0可以运行所有99个TPC-DS查询（需求SQL：2003中的很多功能支持）。由于SQL是Spark应用所使用的主要接口之一，对SQL功能的拓展大幅削减了将遗留应用移植到Spark时所需的工作。在编程API方面，我们合理化了API： 1、在Scala/Java中统一了DataFrames与Dataset：从Spark 2.0开始，DataFrames只是行（ro w）数据集的typealias了。无论是映射、筛选、groupByKey之类的类型方法，还是select、group By之类的无类型方法都可用于Dataset的类。此外，这个新加入的Dataset接口是用作Structured Streaming的抽象，由于Python和R语言中编译时类型安全（compile-time type-safety）不属于语言特性，数据集的概念无法应用于这些语言API中。而DataFrame仍是主要的编程抽象，在这些语言中类似于单节点DataFrames的概念，想要了解这些API的相关信息，请参见相关笔记和文章。 2、SparkSession ：这是一个新入口，取代了原本的SQLContext与HiveContext。对于DataFrame API的用户来说， Spark常见的混乱源头来自于使用哪个“context”。现在你可以使用SparkSession了，它作为单个入口可以兼容两者，点击这里来查看演示。注意原本的SQLContext与HiveContext仍然保留，以支持向下兼容。更简单、性能更佳的Accumulator API：我们设计了一个新的Accumulator API，不但在类型层次上更简洁，同时还专门支持基本类型。原本的Accumulator API已不再使用，但为了向下兼容仍然保留。 3、基于DataFrame的机器学习API将作为主ML API出现：在Spark 2.0中，spark.ml包及其“ 管道”API会作为机器学习的主要API出现，尽管原本的spark.mllib包仍然保留，但以后的开发重点会集中在基于DataFrame的API上。 4、机器学习管道持久化：现在用户可以保留与载入机器学习的管道与模型了，Spark对所有语言提供支持。查看这篇博文以了解更多细节，这篇笔记中也有相关样例。 R语言的分布式算法：增加对广义线性模型（GLM）、朴素贝叶斯算法（NB算法）、存活回归分析（Survival Regression）与聚类算法（K-Means）的支持。速度更快：用Spark作为编译器根据我们2015年对Spark的调查，91%的用户认为对Spark来说，性能是最为重要的。因此，性能优化一直是我们在开发Spark时所考虑的重点。在开始Spark 2.0的