网站大量收购独家精品文档,联系QQ:2885784924

ApacheSpark2.0重大功能介绍.PDF

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ApacheSpark2.0重大功能介绍.PDF

Apache Spark 2.0重大功能介绍 Spark大数据博客 - Apache Spark 2.0重大功能介绍 Apache Spark 2.0发布信息可以参见《Apache Spark 2.0.0正式发布及其功能介绍》 我们很荣幸地宣布,自7月26日起Databricks开始提供Apache Spark 2.0的下载,这个版本是 基于社区在过去两年的经验总结而成,不但加入了用户喜爱的功能,也修复了之前的痛点。 本文总结了Spark 2.0的三大主题:更简单、更快速、更智能,另有Spark 2.0内容的文章汇总介绍了更多细节。 两个月前,Databricks发布了Apache Spark 2.0的技术预览版,如下表所见,目前我们有10% 的集群都在使用这个版本,根据客户使用新版的经验及反馈意见,新版得以发布,Databricks很 开心能成为Spark 2.0的首个商业供应商。 现在,我们来深入了解一下Apache Spark 2.0的新特性。 更简单:ANSI SQL与更合理的API Spark让我们引以为豪的一点就是所创建的API简单、直观、便于使用,Spark 2.0延续了这一传统,并在两个方面凸显了优势: 1、标准的SQL支持; 2、数据框(DataFrame)/Dataset (数据集)API的统一。 在SQL方面,我们已经对Spark的SQL功能做了重大拓展,引入了新的ANSI 1 / 5 Apache Spark 2.0重大功能介绍 Spark大数据博客 - SQL解析器,并支持子查询功能。Spark 2.0可以运行所有99个TPC-DS查询(需求SQL:2003中的 很多功能支持)。由于SQL是Spark应用所使用的主要接口之一,对SQL功能的拓展大幅削减了将 遗留应用移植到Spark时所需的工作。 在编程API方面,我们合理化了API: 1、在Scala/Java中统一了DataFrames与Dataset:从Spark 2.0开始,DataFrames只是行(ro w)数据集的typealias了。无论是映射、筛选、groupByKey之类的类型方法,还是select、group By之类的无类型方法都可用于Dataset的类。此外,这个新加入的Dataset接口是用作Structured Streaming的抽象,由于Python和R语言中编译时类型安全(compile-time type-safety)不属于语 言特性,数据集的概念无法应用于这些语言API中。而DataFrame仍是主要的编程抽象,在这些语 言中类似于单节点DataFrames的概念,想要了解这些API的相关信息,请参见相关笔记和文章。 2、SparkSession :这是一个新入口,取代了原本的SQLContext与HiveContext。对于DataFrame API的用户来说, Spark常见的混乱源头来自于使用哪个“context”。现在你可以使用SparkSession了,它作为单个 入口可以兼容两者,点击这里来查看演示。注意原本的SQLContext与HiveContext仍然保留,以 支持向下兼容。 更简单、性能更佳的Accumulator API:我们设计了一个新的Accumulator API,不但在类型层次上更简洁,同时还专门支持基本类型。原本的Accumulator API已不再使用,但为了向下兼容仍然保留。 3、基于DataFrame的机器学习API将作为主ML API出现:在Spark 2.0中,spark.ml包及其“ 管道”API会作为机器学习的主要API出现,尽管原本的spark.mllib包仍然保留,但以后的开发重点 会集中在基于DataFrame的API上。 4、机器学习管道持久化 :现在用户可以保留与载入机器学习的管道与模型了,Spark对所有语言提供支持。查看这篇博 文以了解更多细节,这篇笔记中也有相关样例。 R语言的分布式算法:增加对广义线性模型(GLM)、朴素贝叶斯算法(NB算法)、存活回归分 析(Survival Regression)与聚类算法(K-Means)的支持。 速度更快:用Spark作为编译器 根据我们2015年对Spark的调查,91%的用户认为对Spark来说,性能是最为重要的。因此, 性能优化一直是我们在开发Spark时所考虑的重点。在开始Spark 2.0的

文档评论(0)

tangtianxu1 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档