- 1、本文档共14页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
storm技术分享解读
Storm技术分享
大数据
巨量资料,指所涉及资料量规模巨大(Volume、Variety)无法透过目前主流软件工具合理时间(Velocity)内达撷取、管理、处理、并整理成帮助企业经营决策(Variety)更积极目的的资讯
大数据与云计算
分布式实时流式处理系统
流式处理系统(规范且稳定的结构):
/v/b1213608837.html
分布式系统(网格,云计算,快速的部署能力和容灾性,方便的扩展)
实时系统(快速的处理能力)
典型的场景
日志统计系统:
传统的解决方案:
queue+worker实时系统:云统计
问题:
1、部署维护消息队列
2、自动容错机制,进程、机器挂掉自动处理
3、功能扩展性
Storm是什么
分布式实时流式处理系统
流式:提供了一个简单的计算模型和API(类似MapReduce),可以方便的处理不断产生的数据
实时:系统本身的效率很高,处理延迟在毫秒级
水平扩展:通过简单加机器、提高并发数就可以提高整体处理能力
自动容错:自动处理进程、机器挂掉的异常
Storm的位置
几个重要概念:数据输入
Tuple:被处理的数据
Stream:一群消息的集合
Spout:产生数据源的组件
几个重要概念:数据处理
Bolt:接受数据后处理数据的组件
Worker:运行处理组件逻辑的进程
Task:Work中每一个spout/bolt的线程
bolt的角色是处理数据,输入是上游(spout或bolt)的tuple,输出是发往下游(bolt)的tuple;bolt可以有多级,一般最后一级bolt会定期把结果写到外部存储
几个重要概念:组合
Topology:对一个应用的spout、bolt类型、输入输出tuple/stream、关联关系的描述
几个重要概念:集群控制
Nimbus:主控节点。负责分配资源,任务调度,监控集群等
Supervisor:接收任务,启动进程
Zookeeper:协调Nimbus和Supervisor之间的工作,存放公共数据
几个重要概念:集群控制
Storm处理流程
演示:
开发机:12
展示页面:
:8360/
文档评论(0)