- 1、本文档共153页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第三章
大数据实时处理开发实践
C
O目1.大数据实时处理技术栈
N
T2.分布式消息系统Kafka
E录
N3.分布式实时处理SparkStreaming
T
S4.分布式实时处理Flink
5.高速道路及服务区拥堵洞察案例实践
•大数据时代越来越多的应用场景提出了数据分析及时响应和实时洞察需求
•例如金融及交易场景的发欺诈或风控系统、电商交易大屏、推荐系统、智能交通系统等
•实时处理的业务诉求是在第一时间获取经过加工的数据,以便实时监控当前业务状态并做出运营
决策,引导业务往好的方向发展
•比如某平台网站上一个访问量很高的广告位,需要实时监控该广告位的引流效果,如果转化率
非常低,运营人员就需要及时更换广告,以避免流量资源的浪费
•实时智能推荐系统
•实时智能推荐系统对用户行为行为进行实时计算,对模型进行实时更新,对用户指标进行实时预测,并
将预测的信息推送给Web/App服务端,提升商家的销售额。
•实时欺诈行为检测系统
•在金融领域的业务中,常常出现各种类型的欺诈行为,例如信用卡欺诈、信贷申请欺诈等。需要实时计
算平台,在毫秒内完成对欺诈行为判断指标的计算,然后实时对交易流水进行实时拦截。
•舆情分析场景
•一些业务场景企业用户需要进行品牌或产品的舆情分析,有时舆情数据的数据量每日可能超百万;需要
可以实时计算平台对舆情数据进行实时查询、全文本有哪些信誉好的足球投注网站,并要求将响应时间控制在秒级。
•复杂事件处理
•一般集中于工业领域的实时故障检测。通过构建报警规则引擎,一旦事件触犯报警规则,便立即将警告
结果传送至下游通知系统,从而实现设备故障快速预警检测、车辆状态监控等目的。
•实时机器学习
•区别于传统静态机器学习,实时机器学习需要采集用户最近的行为并进行特征处理,然后传给实时机器
学习系统进行机器学习,例如动态地推荐新广告。
•按照数据的延迟情况,数据时效性一般分为3种:离线、准实时、实时
•离线:在今天T处理N天前(T−N,N≥1)的数据,延迟时间粒度为天
•准实时:在当前小时H处理N小时前(H−N,N0,如0.5h、1h等)的数据,延迟时间粒度为小时
•实时:在当前时刻处理当前时刻的数据,延迟时间粒度为秒
•离线和准实时都可以在批处理系统中实现,离线和准实时只是调度周期不一样
•比如开源Hadoop、Spark等,国产MaxCompute等系统
•实时处理的需求则需要在流处理系统中实现
•比如Storm、SparkStreaming、Flink
批量计算流式计算
有界的静态数据集无界的动态数据流
处理对象
一般是文件系统或数据集合一般是通过消息队列传递的数据流
高低
处理时延
小时到分钟级秒级到毫秒级
吞吐量大中到小
简单复杂
容错机制
数据不变,故障情况下可以重复计算中间状态需要保证一致性
人工触发,定时任务长时间运行的计算任务
触发动机
任务时间有限持续产出中间结果
大数据平台实时计算架构(通用)
•数据源实时的产生着无界的动态数据流,经过数据采集工具,读取到数据消息中间件中或数据持久
化存储系统中
•通过实时计
文档评论(0)