- 1、本文档共556页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
Spark大数据技术与应用;;快速、分布式、可扩展、容错的集群计算框架;
Spark是基于内存计算的大数据分布式计算框架
低延迟的复杂分析;
Spark是HadoopMapReduce的替代方案。MapReudce不适合迭代和交互式任务,Spark主要为交互式查询和迭代算法设计,支持内存存储和高效的容错恢复。Spark拥有MapReduce具有的优点,但不同于MapReduce,Spark中间输出结果可以保存在内存中,减少读写HDFS的次数
;认识Spark;认识Spark;认识Spark——Spark的特点;认识Spark——Spark的特点;认识Spark——Spark的特点;认识Spark——Spark的特点;认识Spark;认识Spark;认识Spark;认识Spark;认识Spark;腾讯
广点通是最早使用Spark的应用之一。腾讯大数据精准推荐借助Spark快速迭代的优势,围绕“数据+算法+系统”这套技术方案,实现了在“数据实时采集、算法实时训练、系统实时预测”的全流程实时并行高维算法,最终成功应用于广点通pCTR投放???统上,支持每天上百亿的请求量。
Yahoo
Yahoo将Spark用在AudienceExpansion中。AudienceExpansion是广告中寻找目标用户的一种方法,首先广告者提供一些观看了广告并且购买产品的样本客户,据此进行学习,寻找更多可能转化的用户,对他们定向广告。Yahoo采用的算法是LogisticRegression。同时由于某些SQL负载需要更高的服务质量,又加入了专门跑Shark的大内存集群,用于取代商业BI/OLAP工具,承担报表/仪表盘和交互式/即席查询,同时与桌面BI工具对接。
;淘宝
淘宝技术团队使用了Spark来解决多次迭代的机器学习算法、高计算复杂度的算法等,将Spark运用于淘宝的推荐相关算法上,同时还利用GraphX解决了许多生产问题,包括以下计算场景:基于度分布的中枢节点发现、基于最大连通图的社区发现、基于三角形计数的关系衡量、基于随机游走的用户属性传播等。
优酷土豆
目前Spark已经广泛使用在优酷土豆的视频推荐,广告业务等方面,相比Hadoop,Spark交互查询响应快,性能比Hadoop提高若干倍。一方面,使用Spark模拟广告投放的计算效率高、延迟小(同Hadoop比延迟至少降低一个数量级)。另一方面,优酷土豆的视频推荐往往涉及机器学习及图计算,而使用Spark解决机器学习、图计算等迭代计算能够大大减少网络传输、数据落地等的次数,极大地提高了计算性能。
;搭建Spark环境;搭建Spark环境;;master:1.5G~2G内存、20G硬盘、NAT、1~2核;
slave1~slave3:1G内存、20G硬盘、NAT、1核
;搭建Spark环境;搭建Spark环境;搭建Spark环境;搭建Spark环境;搭建Spark环境;启动Spark
cd/usr/local/spark-1.6.3-bin-hadoop2.6/
sbin/start-all.sh
sbin/start-history-server.shhdfs://master:8020/spark-logs
关闭Spark
cd/usr/local/spark-1.6.3-bin-hadoop2.6/
sbin/stop-all.sh
sbin/stop-history-server.shhdfs://master:8020/spark-logs
;Spark监控——http://master:8080;Spark监控——http://master:18080;Spark运行架构及原理;Spark运行架构及原理;SparkonYARN模式根据Driver在集群中的位置分为两种模式,一种是YARN-Client模式(客户端模式),另一种是YARN-Cluster模式(集群模式)。
在YARN运行模式中,不需要启动Spark独立集群,所以这个时候去访问http://master:8080也是访问不了的。启动YARN客户端模式的Sparkshell命令
bin/spark-shell--masteryarn-client
启动YARN集群模式不可使用bin/spark-shell--masteryarn-cluster;Spark运行架构及原理;Spark运行架构及原理;在YARN-Cluster模式下,SparkDriver运行在AM(ApplicationMaster)中,它负责向YARN申请资源,并监督作业的运行状况。当用户提交了作业之后,就可以关掉Client,作业会继续在YARN上运行
您可能关注的文档
- 云计算与大数据 全套PPT课件.pptx
- AutoCAD2016机械制图实例教程(附微课视频)全套PPT课件.ppt
- 消费者行为学(第2版)全套PPT课件.ppt
- 电子政务导论第3版_全套PPT课件.ppt
- Web前端开发任务教程(HTML+CSS+JavaScript+jQuery)全套PPT课件.ppt
- 电子商务案例分析(微课版)全套PPT课件.pptx
- 微信小程序全栈开发技术与实战(微课版)全套PPT课件.pptx
- 财经基本技能与出纳实务(第2版)全套PPT课件.ppt
- 基础会计与实务(第3版)全套PPT课件.ppt
- 中文版Flash CC从入门到精通实用教程(微课版)全套PPT课件.ppt
- 英语人教PEP版八年级(上册)Unit4+writing+写作.pptx
- 人美版美术四年级(上册)8 笔的世界 课件 (1).pptx
- 人美版美术七年级(上册)龙的制作.pptx
- 英语人教PEP版六年级(上册)Unit 2 第一课时.pptx
- 数学苏教版三年级(上册)3.3 长方形和正方形周长的计算 苏教版(共12张PPT).pptx
- 音乐人教版八年级(上册)青春舞曲 课件2.pptx
- 音乐人教版四年级(上册) 第一单元 音乐知识 附点四分音符|人教版.pptx
- 英语人教PEP版四年级(上册)Unit 6 Part B let's learn 1.pptx
- 道德与法治人教版二年级(上册)课件-3.11大家排好队部编版(共18张PPT).pptx
- 人美版美术七年级(上册)《黄山天下奇》课件1.pptx
文档评论(0)