- 1、本文档共32页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据,商业智能的挑战
大数据,商业智能的挑战
搬运大数据的亨利 2013.4.20
1
目录
1. 大数据背景
2. 开源大数据生态圈和商用大数据生态圈
3. 开源前端生态圈和商用前端生态圈
4. 大数据BI系统的底层技术
5. 大数据BI系统的演变过程
6. 建设大数据BI系统的思考
2
大数据背景
大数据的4V
1. 数据量大(Volume)
2. 速度快(Velocity)
3. 类型多(Variety)
4. 价值密度低(Value)
3
大数据背景
更多的数据?
谷歌自始至终都认为数据是越多越好,用谷歌产品研发总监Peter
Norvig的话就是:更多的数据胜过更好的算法
4
开源大数据生态圈
诞生:谷歌
大数据领袖谷歌,于2003年起发布一系列论文:
1. 《The Google File System 》
2. 《MapReduce: Simplified Data Processing on Large Clusters》
3. 《Bigtable: A Distributed Storage System for Structured Data》
战火被点燃,从此进入大数据时代
5
开源大数据生态圈
诞生:开源大数据生态圈
1. Hadoop HDFS、Hadoop MapReduce, HBase、Hive 渐次
诞生,早期Hadoop生态圈逐步形成
2. Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经
有一些用户
6
开源大数据生态圈
Hadoop MapReduce不适合实时计算?
1. 任务分配Server不会将信息Push到计算Node ,而是让计算
Node通过心跳去Pull任务
2. 基于框架的通用性,MapReduce代码也会在HDFS中传送,在
各计算Node展开,再通过启动新JVM进程装载并运行
3. 类似的JVM进程启停有5、6次之多
4. Reduce Task只能在所有Map Task完成之后才能启动
7
开源大数据生态圈
中期:谷歌
. 为了高扩展性,我们容忍了高延迟
. 2010年,谷歌又发布了论文: 《Dremel: Interactive Analysis of Web Scale
Datasets》
. 论文撰写于2006年
. 平静再次被打破
8
开源大数据生态圈
中期:开源 Caution!
在Hadoop MapReduce框架之外,衍生出了一批低延迟的大数据
分析项目:Cloudera Impala, MapR Drill, HBase Coprocessor,
Spark, etc.
9
开源大数据生态圈
后来:谷歌
NoSQL引领着IT
文档评论(0)