- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
孟繁兴
010203目录Spark SQLSpark StreamSpark简介040506GraphXSpark生态系统应用场景MLlib
Spark简介Spark在2013年加入Apache孵化器项目,之后获得迅猛的发展,并于2014年正式成为Apache软件基金会的顶级项目。Spark生态系统已经发展成为一个可应用于大规模数据处理的统一分析引擎,它是基于内存计算的大数据并行计算框架,适用于各种各样的分布式平台的系统。在Spark生态圈中包含了Spark SQL、Spark Streaming、GraphX、MLlib等组件。
Spark SQLSpark SQL是Apache Spark的用于处理结构化数据的模块。
Spark StreamSpark Streaming使构建可扩展的容错流应用程序变得容易。使用方便通过高级操作员构建应用程序。容错能力开箱即用的有状态精确语义。Spark整合将流与批处理和交互式查询结合在一起。
MLlib使用方便在Java,Scala,Python和R中可用。性能高质量算法,比MapReduce快100倍。无处不在Spark可针对各种数据源在Hadoop,Apache Mesos,Kubernetes上独立运行或在云中运行。MLlib是Apache Spark的可扩展机器学习库。
GraphX灵活性无缝地处理图形和集合。速度与最快的专业图形处理系统可比的性能。算法从不断增长的图形算法库中选择。网页排名连接的组件标签传播SVD ++牢固连接的组件三角数GraphX是Apache Spark的用于图形和图形并行计算的API。
Spark生态系统应用场景应用场景时间跨度其他框架Spark生态系统中的组件复杂的批量数据处理小时级MapReduce、HiveSpark基于历史数据的交互式查询分钟级、秒级Impala、Dremel、DrillSpark SQL基于实时数据流的数据处理毫秒、秒级Storm、S4Spark Streaming基于历史数据的数据挖掘-MahoutMLlib图结构数据的处理-Pregel、HamaGraphX表1 Spark生态系统组件的应用场景
文档评论(0)