- 1、本文档共72页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
培训目标熟悉HADOOP应用背景12了解Hadoop应用案例3了解Hadoop技术最佳实践大数据和数据仓库概述Hadoop 应用案例和云平台Hadoop 数据仓库[python/java]最佳实践数据可视化案例基于数据仓库平台改造变迁53124培训目录阿里金融通过大数据整合掘金! 阿里金融的信用评估系统会自动分析小微企业的数据,例如企业通过支付宝,淘宝进行的支付数据,最终算出信用评估和放贷额度。 截止2011年底,阿里金融对近30万家小微企业进行信用评估。累计投放96800家,投放贷款154亿,坏账率为交易额的0.76%。阿里金融的实时业务墙阿里金融的数据模型任务(局部)每个模型任务都是面向海量数据的大规模运算任务。天猫/淘宝 双十一191亿背后的开源技术?@dbatools: 双十一一天时间,支付宝核心数据库集群处理了41亿个事务,执行285亿次SQL,访问1931亿次内存数据块,13亿个物理读,生成15TB日志。淘宝数据云梯平台-产品架构数据应用即席查询(adhoc)数据分析数据挖掘数据产品报表需求(淘数据)数据开发平台数据应用开发平台——数据工场 Hbase实时计算 Hive底层平台是需求驱动技术,技术带动需求?思考-云计算技术有两极 3200台主机Hadoop解决了什么难题?移动计算而非移动数据,化整为零,分片处理。本地化计算,并行IO,降低网络通信思考-数据分析系统的基本指标思考-数据分析系统的基本指标大规模批量服务(服务 1.0) 海量用户信息消费者用户N用户1 编辑人员 决策逻辑 编辑逻辑1逻辑逻辑N信息生产者 数据库Mysql/Oracle数据集大规模个性化服务(服务 2.0) 海量用户信息 生产者/消费者用户N用户1 决策逻辑逻辑1逻辑NStorm 大数据库 规则制定服务数据1服务数据NHbase 大数据仓库挖掘逻辑NHadoopHive 上帝之手原始数据1原始数据2原始数据N本质:智能组织-智能群体实时思考-数据分析系统的基本指标反馈决策周期!快反馈决策粒度! 细反馈决策准确性! 准 反馈总体成本! 廉价数据统计/分析 是一个组织 自动控制,自学习,自调整系统核心组成部分。机会成本! 想象空间!Hadoop 前的数据仓库流程perl,shell,awk 反馈决策周期!快 ?反馈决策粒度! 细 ?反馈决策准确性! 准 ? 反馈总体成本! 廉价 ?Hadoop后的数据仓库流程Hql,Pig,Mapreduce,工作流 反馈决策周期!快 ?反馈决策粒度! 细 ?反馈决策准确性! 准 ? 反馈总体成本! 廉价 ?持续扩展成本 ?那些用户需要Hadoop (合)技术?案例解析User Case 1 (网页游戏)国内网页游戏厂商 百个服/网页游戏,30-50个库/服10G用户数据/天/游戏 [十几款游戏]场景: 游戏玩家行为分析其他平台:数据无法导出中间数据汇总丢弃,无法用户级分析User Case 2(智慧交通) 用户:最大城市,交通领域(City traffic)场景:车牌记录[Car Licence Plate],100亿[10 Billion]/年 需求:小时级别-优化到分钟级[Minute]-未来优化到秒级[Seconds]查询Smarter CitiesIntelligent Transportation场景: 车辆异常快速识别 交通安全问题Vehicle AbnormalHadoop技术 其他应用领域有哪些信誉好的足球投注网站社交游戏视频电信医疗交通公安航空电力金融民生核心基于hadoop的数据平台总体架构Python 结合 Hadoop Streaming 原理解析MapReduce基本流程实现distinct一、日志格式:{0E3AAC3B-E705-4915-9ED4-EB7B1E963590}{FB11E363-6D2B-40C6-A096-95D8959CDB92}{06F7CAAB-E165-4F48-B32C-8DD1A8BA2562}{B17F6175-6D36-44D1-946F-D748C494648A}{06F7CAAB-E165-4F48-B32C-8DD1A8BA2562}{B17F6175-6D36-44D1-946F-D748C494648A}B11E363-6D2B-40C6-A096-95D8959CDB9217F6175-6D36-44D1-946F-D748C494648AE3AAC3B-E705-4915-9ED4-EB7B1E9635906F7CAAB-E165-4F48-B32C-8DD1A8BA25624使用python实现 distinct/count一、日志格式:{0E3AAC3B-E705-4915-9ED4-EB7B1E963590}{FB11E363-6D2B-40
文档评论(0)