- 1、本文档共43页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三十页,共四十三页。 第三十一页,共四十三页。 */42 基于云平台(云数据)? 大数据描述理论、处理与分析架构、应用领域? 大数据研究现状探讨 沈来信 2013年12月20日 第一页,共四十三页。 */42 大数据是数据库的自然延伸? 忘不掉ACID,舍不得Relation,忽视实际应用 潜意识地奉行“一招鲜”(One Size Fits All) 结构化+半结构化/非结构化数据(二八原则) 管理和处理需求 --落实 “One Size Fits a Bunch” --查询/检索/统计/挖掘 --离线/在线/即时/连续 --本地/远程/“云”? 可回溯的可视化分析 --事务型与分析型 --多领域应用(教育、医疗、交通……) 第二页,共四十三页。 Atomicity+Consistency+Isolation+Durability
OSFA 大数据常用的处理框架 流处理(直接处理)和批处理(先存储后处理) 流处理: 数据持续到达,速度快,规模巨大,不永久存储,数据不断变化--》难以掌握全貌; 代表的开源系统:Twitter的storm、Yahoo的S4、Linkedin的kafka 批处理:MapReduce 1) ?将问题分而治之 2)把计算推到数据而不是把数据推到计算,避免数据传输过程中产生的大量通信开销 */42 第三页,共四十三页。 第四页,共四十三页。 */42 0-大数据与云计算、云平台 Hadoop(数据密集型分布式应用,Apache) --分布式数据处理MapReduce(并行计算框架) --分布式文件系统HDFS(google的DFS基础上) --分布式数据库Hbase(Nosql,列,BigTable) --数据仓库工具Hive(Facebook) --分布式锁Zookeeper(Facebook) --大数据分析平台Pig(提供多种接口) --管理工具Ambari(监控、部署、管理) --Sqoop:在集群与传统数据库间的数据传递 第五页,共四十三页。 Goolge 00 分布式集群Hadoop */42 第六页,共四十三页。 01 并行计算框架Mapreduce */42 第七页,共四十三页。 02 分布式文件系统HDFS */42 第八页,共四十三页。 03 分布式NoSql列数据库Hbase 第九页,共四十三页。 04 数据仓库Hive 第十页,共四十三页。 05 脚本语言Pig 第十一页,共四十三页。 Google后Hadoop时代的新三驾马车 Dremel:web数据级别的交互式数据分析系统 列存储、多层次查询树,毫秒级海量数据分析 Caffeine:为Google网络有哪些信誉好的足球投注网站引擎提供支持,能够更迅速的添加新的链接到自身大规模的网站索引系统中,丢弃MapReduce转而将索引放置在分布式数据库BigTable上 Pregel:主要绘制大量网上信息之间关系的“图形数据库” 第十二页,共四十三页。 */42 1-Brighthouse: An Analytic Data Warehouse for ad-hoc Queries PVLDB’08 Dominik Slezak, Infobright, inc.,Poland An Analytic Data Warehouse for Ad-hoc Queries Column-oriented data warehouse with automatically tuned(基于列的自调整数据仓库) Data management:DP、DPN、KN 粗集Rough set + 粒度计算Granular Computing 知识网格Knowledge Grid 优化与执行Optimization and Execution 第十三页,共四十三页。 Data Pack数据块 Data Pack Node数据块节点 Knowledge Node知识网格 */42 DP(Data Pack)、DPN(Data Pack Node)、KN(Knowledge Node) 第十四页,共四十三页。 */42 行存储、列存储比较 第十五页,共四十三页。 数据块(Data Packs) 第十六页,共四十三页。 知识网格(Konwledge Grid) 第十七页,共四十三页。 */42 知识网格(Konwledge Grid) 第十八页,共四十三页。 */42 2-Starfish: A Self-tuning System for big data
您可能关注的文档
- 会计工作的组织和管理.ppt
- 管理会计实务之短期经营决策分析.ppt
- 河南商丘天伦国际广场策划销售推广全案.ppt
- 国际税收概述.ppt
- 化工安全基础知识培训资料.ppt
- 化工仪表概述及基本知识.ppt
- 国际职业培训师素养及风范培训课程.ppt
- 护士长的领导方法与艺术.ppt
- 海口市万绿园北地块产品建议.ppt
- 基于SOA架构城市轨道交通智能勘察系统平台的设计与实现.ppt
- 专题02+时事热点(精讲课件)2025年中考地理二轮复习讲练测(安徽专用).pptx
- 专题10+经济建设 2025年中考道德与法治二轮复习讲练测(广东专用).pptx
- 专题02+西游记【名著概览】+-+2025年中考语文必读名著演练.pptx
- 专题七+认识国家(课件)-【省心备考】2025年中考地理一轮复习优质课件.pptx
- 第22课《礼记》二则——《大道之行也》(课件)-2024-2025学年八年级语文下册同步备课精品资源.pptx
- 跨学科实践15:制作“龙骨水车”(课件)-2024-2025学年八年级物理下学期项目化课程案例.pptx
- 第13课_辽宋夏金元时期的对外交流(课件)2024-2025学年七年级历史下册同步教学课件.pptx
- 选择题专项讲解——综合类(课件)2025年初中道德与法治中考选择题练习.pptx
- 第21课《庄子》二则——《北冥有鱼》(课件)-2024-2025学年八年级语文下册同步备课精品资源.pptx
- 7.3+感受澳大利亚(第二课时)-2025学年七年级地理下册同步精品课堂(晋教版2024).pptx
文档评论(0)