- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ApacheSpark2.0重大功能介绍.PDF
Apache Spark 2.0重大功能介绍
Spark大数据博客 -
Apache Spark 2.0重大功能介绍
Apache Spark 2.0发布信息可以参见《Apache Spark 2.0.0正式发布及其功能介绍》
我们很荣幸地宣布,自7月26日起Databricks开始提供Apache Spark 2.0的下载,这个版本是
基于社区在过去两年的经验总结而成,不但加入了用户喜爱的功能,也修复了之前的痛点。
本文总结了Spark 2.0的三大主题:更简单、更快速、更智能,另有Spark
2.0内容的文章汇总介绍了更多细节。
两个月前,Databricks发布了Apache Spark 2.0的技术预览版,如下表所见,目前我们有10%
的集群都在使用这个版本,根据客户使用新版的经验及反馈意见,新版得以发布,Databricks很
开心能成为Spark 2.0的首个商业供应商。
现在,我们来深入了解一下Apache Spark 2.0的新特性。
更简单:ANSI SQL与更合理的API
Spark让我们引以为豪的一点就是所创建的API简单、直观、便于使用,Spark
2.0延续了这一传统,并在两个方面凸显了优势:
1、标准的SQL支持;
2、数据框(DataFrame)/Dataset (数据集)API的统一。
在SQL方面,我们已经对Spark的SQL功能做了重大拓展,引入了新的ANSI
1 / 5
Apache Spark 2.0重大功能介绍
Spark大数据博客 -
SQL解析器,并支持子查询功能。Spark 2.0可以运行所有99个TPC-DS查询(需求SQL:2003中的
很多功能支持)。由于SQL是Spark应用所使用的主要接口之一,对SQL功能的拓展大幅削减了将
遗留应用移植到Spark时所需的工作。
在编程API方面,我们合理化了API:
1、在Scala/Java中统一了DataFrames与Dataset:从Spark 2.0开始,DataFrames只是行(ro
w)数据集的typealias了。无论是映射、筛选、groupByKey之类的类型方法,还是select、group
By之类的无类型方法都可用于Dataset的类。此外,这个新加入的Dataset接口是用作Structured
Streaming的抽象,由于Python和R语言中编译时类型安全(compile-time type-safety)不属于语
言特性,数据集的概念无法应用于这些语言API中。而DataFrame仍是主要的编程抽象,在这些语
言中类似于单节点DataFrames的概念,想要了解这些API的相关信息,请参见相关笔记和文章。
2、SparkSession
:这是一个新入口,取代了原本的SQLContext与HiveContext。对于DataFrame API的用户来说,
Spark常见的混乱源头来自于使用哪个“context”。现在你可以使用SparkSession了,它作为单个
入口可以兼容两者,点击这里来查看演示。注意原本的SQLContext与HiveContext仍然保留,以
支持向下兼容。
更简单、性能更佳的Accumulator API:我们设计了一个新的Accumulator
API,不但在类型层次上更简洁,同时还专门支持基本类型。原本的Accumulator
API已不再使用,但为了向下兼容仍然保留。
3、基于DataFrame的机器学习API将作为主ML API出现:在Spark 2.0中,spark.ml包及其“
管道”API会作为机器学习的主要API出现,尽管原本的spark.mllib包仍然保留,但以后的开发重点
会集中在基于DataFrame的API上。
4、机器学习管道持久化
:现在用户可以保留与载入机器学习的管道与模型了,Spark对所有语言提供支持。查看这篇博
文以了解更多细节,这篇笔记中也有相关样例。
R语言的分布式算法:增加对广义线性模型(GLM)、朴素贝叶斯算法(NB算法)、存活回归分
析(Survival Regression)与聚类算法(K-Means)的支持。
速度更快:用Spark作为编译器
根据我们2015年对Spark的调查,91%的用户认为对Spark来说,性能是最为重要的。因此,
性能优化一直是我们在开发Spark时所考虑的重点。在开始Spark 2.0的
您可能关注的文档
- A20_LinuxBSP使用说明书_V2.0_20131227.pdf
- A22文体·关注.PDF
- A25Gbs5.8mWCMOSEqualizer.PDF
- A26教育·活动.PDF
- abaqus cmd提交小结.pdf
- acasereportandliteraturereview.PDF
- ACOS6-SAM.PDF
- ACrisisinConfidenceandTheConservativeResurgence.ppt
- AD3May2017.PDF
- ADI技术指南合集.PDF
- 中考语文总复习语文知识及应用专题5仿写修辞含句子理解市赛课公开课一等奖省课获奖课件.pptx
- 湖南文艺版(2024)新教材一年级音乐下册第二课《藏猫猫》精品课件.pptx
- 湖南文艺版(2024)新教材一年级音乐下册第三课《我向国旗敬个礼》精品课件.pptx
- 高中生物第四章生物的变异本章知识体系构建全国公开课一等奖百校联赛微课赛课特等奖课件.pptx
- 整数指数幂市公开课一等奖省赛课微课金奖课件.pptx
- 一年级音乐上册第二单元你早全国公开课一等奖百校联赛微课赛课特等奖课件.pptx
- 八年级数学上册第二章实数27二次根式第四课时习题省公开课一等奖新课获奖课件.pptx
- 九年级物理全册11简单电路习题全国公开课一等奖百校联赛微课赛课特等奖课件.pptx
- 八年级语文下册第五单元19邹忌讽齐王纳谏省公开课一等奖新课获奖课件.pptx
- 2024年秋季新人教PEP版3年级上册英语全册教学课件 (2).pptx
最近下载
- 2024年宝鸡职业技术学院单招职业技能测试题库及完整答案1套.docx VIP
- 网上支付与安全教学设计 教案全套 1-网上支付与安全概述---11-网络金融.doc
- 2024零碳城市建设评价指南.docx
- 物业小区安全隐患排查及整改措施.docx VIP
- 2025年新疆事业单位招聘考试时间及计划申报笔试备考题库及答案解析.docx
- 2024昆十中教育集团·白塔中学夏季教师及专职员工招聘(18人)笔试备考题库及答案解析.docx
- 2024年宝鸡职业技术学院单招职业技能测试题库完整答案.docx VIP
- TCRHA-床旁超声评估压力性损伤技术规范.pdf
- 一种攀爬机器人用夹爪.pdf VIP
- 06互联网营销师-通用知识第6章-客户关系管理.pptx
文档评论(0)