大数据,商业智能的挑战.pdf

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据,商业智能的挑战

大数据,商业智能的挑战 搬运大数据的亨利 2013.4.20 1 目录 1. 大数据背景 2. 开源大数据生态圈和商用大数据生态圈 3. 开源前端生态圈和商用前端生态圈 4. 大数据BI系统的底层技术 5. 大数据BI系统的演变过程 6. 建设大数据BI系统的思考 2 大数据背景 大数据的4V 1. 数据量大(Volume) 2. 速度快(Velocity) 3. 类型多(Variety) 4. 价值密度低(Value) 3 大数据背景 更多的数据? 谷歌自始至终都认为数据是越多越好,用谷歌产品研发总监Peter Norvig的话就是:更多的数据胜过更好的算法 4 开源大数据生态圈 诞生:谷歌 大数据领袖谷歌,于2003年起发布一系列论文: 1. 《The Google File System 》 2. 《MapReduce: Simplified Data Processing on Large Clusters》 3. 《Bigtable: A Distributed Storage System for Structured Data》 战火被点燃,从此进入大数据时代 5 开源大数据生态圈 诞生:开源大数据生态圈 1. Hadoop HDFS、Hadoop MapReduce, HBase、Hive 渐次 诞生,早期Hadoop生态圈逐步形成 2. Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经 有一些用户 6 开源大数据生态圈 Hadoop MapReduce不适合实时计算? 1. 任务分配Server不会将信息Push到计算Node ,而是让计算 Node通过心跳去Pull任务 2. 基于框架的通用性,MapReduce代码也会在HDFS中传送,在 各计算Node展开,再通过启动新JVM进程装载并运行 3. 类似的JVM进程启停有5、6次之多 4. Reduce Task只能在所有Map Task完成之后才能启动 7 开源大数据生态圈 中期:谷歌 . 为了高扩展性,我们容忍了高延迟 . 2010年,谷歌又发布了论文: 《Dremel: Interactive Analysis of Web Scale Datasets》 . 论文撰写于2006年 . 平静再次被打破 8 开源大数据生态圈 中期:开源 Caution! 在Hadoop MapReduce框架之外,衍生出了一批低延迟的大数据 分析项目:Cloudera Impala, MapR Drill, HBase Coprocessor, Spark, etc. 9 开源大数据生态圈 后来:谷歌 NoSQL引领着IT

文档评论(0)

karin + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档