网站大量收购独家精品文档,联系QQ:2885784924

汇报1大数据研究现状探讨42.ppt

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三十页,共四十三页。 第三十一页,共四十三页。 */42 基于云平台(云数据)? 大数据描述理论、处理与分析架构、应用领域? 大数据研究现状探讨 沈来信 2013年12月20日 第一页,共四十三页。 */42 大数据是数据库的自然延伸? 忘不掉ACID,舍不得Relation,忽视实际应用 潜意识地奉行“一招鲜”(One Size Fits All) 结构化+半结构化/非结构化数据(二八原则) 管理和处理需求 --落实 “One Size Fits a Bunch” --查询/检索/统计/挖掘 --离线/在线/即时/连续 --本地/远程/“云”? 可回溯的可视化分析 --事务型与分析型 --多领域应用(教育、医疗、交通……) 第二页,共四十三页。 Atomicity+Consistency+Isolation+Durability OSFA 大数据常用的处理框架 流处理(直接处理)和批处理(先存储后处理) 流处理: 数据持续到达,速度快,规模巨大,不永久存储,数据不断变化--》难以掌握全貌; 代表的开源系统:Twitter的storm、Yahoo的S4、Linkedin的kafka 批处理:MapReduce 1) ?将问题分而治之 2)把计算推到数据而不是把数据推到计算,避免数据传输过程中产生的大量通信开销 */42 第三页,共四十三页。 第四页,共四十三页。 */42 0-大数据与云计算、云平台 Hadoop(数据密集型分布式应用,Apache) --分布式数据处理MapReduce(并行计算框架) --分布式文件系统HDFS(google的DFS基础上) --分布式数据库Hbase(Nosql,列,BigTable) --数据仓库工具Hive(Facebook) --分布式锁Zookeeper(Facebook) --大数据分析平台Pig(提供多种接口) --管理工具Ambari(监控、部署、管理) --Sqoop:在集群与传统数据库间的数据传递 第五页,共四十三页。 Goolge 00 分布式集群Hadoop */42 第六页,共四十三页。 01 并行计算框架Mapreduce */42 第七页,共四十三页。 02 分布式文件系统HDFS */42 第八页,共四十三页。 03 分布式NoSql列数据库Hbase 第九页,共四十三页。 04 数据仓库Hive 第十页,共四十三页。 05 脚本语言Pig 第十一页,共四十三页。 Google后Hadoop时代的新三驾马车 Dremel:web数据级别的交互式数据分析系统 列存储、多层次查询树,毫秒级海量数据分析 Caffeine:为Google网络有哪些信誉好的足球投注网站引擎提供支持,能够更迅速的添加新的链接到自身大规模的网站索引系统中,丢弃MapReduce转而将索引放置在分布式数据库BigTable上 Pregel:主要绘制大量网上信息之间关系的“图形数据库” 第十二页,共四十三页。 */42 1-Brighthouse: An Analytic Data Warehouse for ad-hoc Queries PVLDB’08 Dominik Slezak, Infobright, inc.,Poland An Analytic Data Warehouse for Ad-hoc Queries Column-oriented data warehouse with automatically tuned(基于列的自调整数据仓库) Data management:DP、DPN、KN 粗集Rough set + 粒度计算Granular Computing 知识网格Knowledge Grid 优化与执行Optimization and Execution 第十三页,共四十三页。 Data Pack数据块 Data Pack Node数据块节点 Knowledge Node知识网格 */42 DP(Data Pack)、DPN(Data Pack Node)、KN(Knowledge Node) 第十四页,共四十三页。 */42 行存储、列存储比较 第十五页,共四十三页。 数据块(Data Packs) 第十六页,共四十三页。 知识网格(Konwledge Grid) 第十七页,共四十三页。 */42 知识网格(Konwledge Grid) 第十八页,共四十三页。 */42 2-Starfish: A Self-tuning System for big data

您可能关注的文档

文档评论(0)

虾虾教育 + 关注
官方认证
内容提供者

有问题请私信!谢谢啦 资料均为网络收集与整理,收费仅为整理费用,如有侵权,请私信,立马删除

版权声明书
用户编号:8012026075000021
认证主体重庆皮皮猪科技有限公司
IP属地重庆
统一社会信用代码/组织机构代码
91500113MA61PRPQ02

1亿VIP精品文档

相关文档