大数据技术及应用 第3章 大数据实时处理开发实践.pptxVIP

大数据技术及应用 第3章 大数据实时处理开发实践.pptx

  1. 1、本文档共153页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第三章

大数据实时处理开发实践

大数据实时处理技术栈分布式消息系统Kafka分布式实时处理SparkStreaming分布式实时处理Flink高速道路及服务区拥堵洞察案例实践

3.1大数据实时处理技术栈

大数据时代越来越多的应用场景提出了数据分析及时响应和实时洞察需求例如金融及交易场景的发欺诈或风控系统、电商交易大屏、推荐系统、智能交通系统等实时处理的业务诉求是在第一时间获取经过加工的数据,以便实时监控当前业务状态并做出运营决策,引导业务往好的方向发展比如某平台网站上一个访问量很高的广告位,需要实时监控该广告位的引流效果,如果转化率非常低,运营人员就需要及时更换广告,以避免流量资源的浪费大数据实时处理应用场景(1/2)

大数据实时处理应用场景(1/2)实时智能推荐系统实时智能推荐系统对用户行为行为进行实时计算,对模型进行实时更新,对用户指标进行实时预测,并将预测的信息推送给Web/App服务端,提升商家的销售额。实时欺诈行为检测系统在金融领域的业务中,常常出现各种类型的欺诈行为,例如信用卡欺诈、信贷申请欺诈等。需要实时计算平台,在毫秒内完成对欺诈行为判断指标的计算,然后实时对交易流水进行实时拦截。舆情分析场景一些业务场景企业用户需要进行品牌或产品的舆情分析,有时舆情数据的数据量每日可能超百万;需要可以实时计算平台对舆情数据进行实时查询、全文本有哪些信誉好的足球投注网站,并要求将响应时间控制在秒级。复杂事件处理一般集中于工业领域的实时故障检测。通过构建报警规则引擎,一旦事件触犯报警规则,便立即将警告结果传送至下游通知系统,从而实现设备故障快速预警检测、车辆状态监控等目的。实时机器学习区别于传统静态机器学习,实时机器学习需要采集用户最近的行为并进行特征处理,然后传给实时机器学习系统进行机器学习,例如动态地推荐新广告。

按照数据的延迟情况,数据时效性一般分为3种:离线、准实时、实时离线:在今天T处理N天前(T?N,N≥1)的数据,延迟时间粒度为天准实时:在当前小时H处理N小时前(H?N,N0,如0.5h、1h等)的数据,延迟时间粒度为小时实时:在当前时刻处理当前时刻的数据,延迟时间粒度为秒离线和准实时都可以在批处理系统中实现,离线和准实时只是调度周期不一样比如开源Hadoop、Spark等,国产MaxCompute等系统实时处理的需求则需要在流处理系统中实现比如Storm、SparkStreaming、Flink大数据的数据处理时效性批量计算流式计算处理对象有界的静态数据集一般是文件系统或数据集合无界的动态数据流一般是通过消息队列传递的数据流处理时延高小时到分钟级低秒级到毫秒级吞吐量大中到小容错机制简单数据不变,故障情况下可以重复计算复杂中间状态需要保证一致性触发动机人工触发,定时任务任务时间有限长时间运行的计算任务持续产出中间结果

数据源实时的产生着无界的动态数据流,经过数据采集工具,读取到数据消息中间件中或数据持久化存储系统中通过实时计算框架(组件系统),例如Flink、SparkStreaming、Storm进行实时处理和分析数据应用长期运行来展现实时计算的结果,并不断刷新展示必威体育精装版结果大数据平台实时计算架构(通用)数据源数据输入数据结果结果输出无界的动态数据流实时产生、无序、混沌低时延分析任务长期运行

为了能够同时进行批处理与流处理,企业通常采用“Hadoop+Storm”架构在这种架构中,Hadoop和Storm框架部署在资源管理框架YARN或Mesos之上,接受统一的资源管理和调度,并共享底层的数据存储(HDFS、HBase、Cassandra等)Hadoop负责对批量历史数据进行实时查询和离线分析,而Storm负责对用户行为进行实时分析和对流数据进行实时流处理大数据平台批处理和流处理联合架构(早期经典)“Hadoop+Storm”架构

Storm是第一个开源的实时数据处理框架,于2011年发布,它被提供给大多数企业使用Storm的出现满足了一些实时处理需求,但并没有提供完整的数据流处理生态系统大数据实时处理技术栈演进大数据框架出现的时间统计Storm的崭露头角

Storm集群采用主从架构方式,主节点是Nimbus负责资源分配和任务调度,负责分发用户代码从节点是Supervisor负责接受Nimbus分配的任务,启动和停止属于自己管理的worker进程Worker负责运行具体处理组件逻辑的进程:运行着Spout任务(从外部读取数据)和Bolt任务(处理数据)ZooKeeper集群用来协调Nimbus和Supervisor,存储有关调度的信息大数据实时处理技术栈演进Storm的崭露头角

Spark引入SparkStreaming模块,采用微批处理的方式,将流数据划分为小批次,然后进行批处理分析SparkStreaming处理方式有高吞

文档评论(0)

139****1983 + 关注
实名认证
文档贡献者

副教授、一级建造师持证人

一线教师。

领域认证该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

相关文档