- 1、本文档共32页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
大数据,商业智能的挑战搬运大数据的亨利2019.4.201
目录1.大数据背景2.开源大数据生态圈和商用大数据生态圈3.开源前端生态圈和商用前端生态圈4.大数据BI系统的底层技术5.大数据BI系统的演变过程6.建设大数据BI系统的思考2
大数据背景大数据的4V1.数据量大(Volume)2.速度快(Velocity)3.类型多(Variety)4.价值密度低(Value)3
大数据背景更多的数据?谷歌自始至终都认为数据是越多越好,用谷歌产品研发总监PeterNorvig的话就是:更多的数据胜过更好的算法4
开源大数据生态圈诞生:谷歌大数据领袖谷歌,于2019年起发布一系列论文:1.《TheGoogleFileSystem》2.《MapReduce:SimplifiedDataProcessingonLargeClusters》3.《Bigtable:ADistributedStorageSystemforStructuredData》战火被点燃,从此进入大数据时代5
开源大数据生态圈诞生:开源大数据生态圈1.HadoopHDFS、HadoopMapReduce,HBase、Hive渐次诞生,早期Hadoop生态圈逐步形成2.Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用户6
开源大数据生态圈HadoopMapReduce不适合实时计算?1.任务分配Server不会将信息Push到计算Node,而是让计算Node通过心跳去Pull任务2.基于框架的通用性,MapReduce代码也会在HDFS中传送,在各计算Node展开,再通过启动新JVM进程装载并运行3.类似的JVM进程启停有5、6次之多4.ReduceTask只能在所有MapTask完成之后才能启动7
开源大数据生态圈中期:谷歌.为了高扩展性,我们容忍了高延迟.2019年,谷歌又发布了论文:《Dremel:InteractiveAnalysisofWebScaleDatasets》.论文撰写于2019年.平静再次被打破8
开源大数据生态圈中期:开源在HadoopMapReduce框架之外,衍生出了一批低延迟的大数据分析项目:ClouderaImpala,MapRDrill,HBaseCoprocessor,Spark,etc.Caution!9
开源大数据生态圈后来:谷歌NoSQL引领着IT界时尚圈,几乎家喻户晓;低延迟的大数据分析项目在开源界刚出现没多久,谷歌又烧了第三把火。这次它发表的两篇论文是:1.《F1-TheFault-TolerantDistributedRDBMSSupportingGooglesAdBusiness》2.《Spanner:GooglesGlobally-DistributedDatabase》.多年以来,很多人以NoSQL为时尚。到后来才发现,原来谷歌早就在用SQL语句自如地访问自己的MPP数据库:F1和Spanner了.NoSQL定义曾经有很多版本,谷歌的必威体育精装版定义是:NoTimetoSupportSQL10
开源大数据生态圈后来:开源界整体失声这里的黎明静悄悄...11
开源大数据生态圈总结:开源大数据生态圈落后,努力!基本套路:1.2019年,谷歌点燃了大数据战火2.2019年,谷歌又给大数据放了一把火3.2019年,谷歌再给大数据放了第三把火12
开源大数据生态圈几个另类:MySQL,MonetDB,PostgreSQL想过打造属于自己的MPP数据仓库吗?13
商用大数据生态圈一体机数据库/数据仓库:Scale-out数据仓库:Scale-up数据集市:Scale-out数据集市:14
开源前端生态圈开源:15
商用前端生态圈统计分析和数据挖掘:展现分析:16
大数据BI系统的底层技术必要的底层技术1.分布式计算2.分布式通信3.内存计算4.列存储5.库内计算17
大数据BI系统的底层技术分布式计算
1.OfflineMPP2.OnlineMPPDremel2.Online1.OfflineMapRedIRedIIGroup/AggrQueryMapMapRedIMapCaution!18
大数据BI系统的底层技术分布式通信1.Performance2.Load3.VarianceAverage(a)是相同值5,但是Variance(a)差距很大19
大数据BI系统的底层技术内存计算1.AllData2.HotDataDataCodeDat
您可能关注的文档
- 马原辨析题、简答题、论述题汇总.docx
- 2018年高考题和高考模拟题生物分项版汇编:专题11 植物的激素调节(含解析).docx
- 大学生音乐素养现状调查报告.docx
- 脑挫裂伤的护理查房.ppt
- 中国移动深圳信息大厦项目施工总承包项目BIM综合应用(精选BIM标书).docx
- 定格动画设计第一章定格动画概述.pptx
- 人民币汇率变动对中美贸易的影响【开题报告+文献综述+毕业论文】.docx
- 基于spring mvc和mybatis的轻量级mvc框架研究.docx
- 团组织生活会对照检查材料.docx
- 部编版语文五年级上册第三和第四单元测试题(附答案).docx
- 2019-2020学年高中物理54变压器学案(含解析)新人教版选修3-2.docx
- 2019-2020学年高中物理模块综合试卷(一)粤教版选修3-2.docx
- 小学二年级下册数学奥数知识点讲解第7课《数字游戏问题1》试题附答案.doc
- 2019-2020学年高中物理全册模块要点回眸第12点把握“等效”紧扣“三同”求交变电流的有效值学案粤教版选修3-2.docx
- 第5课黄河颂(学生版).docx
- 1323直线与平面的位置关系(十三大题型).docx
- 随机事件与概率专项训练高三数学一轮复习.docx
- 专题17说明文阅读(原卷版).docx
- 专题05科技改变生活-2023年小升初科学专项复习.docx
- 九年级英语全册Unit4IusedtobeafraidofthedarkSectionA(1a-2d)课件(完整版)7.pptx
最近下载
- 大学科技创新平台管理办法(修订).pdf
- 2024届高考专题复习:语言文字运用指导 课件96张.pptx VIP
- 益丰5000吨年生物制剂(微生物水处理剂)项目报告表(最终版).docx
- 新人教小学五年级数学上册《植树问题(三)》示范教学课件.pptx
- 银行业安全保卫工作培训.pptx
- 2024年08月苏州工业园区行政审批局辅助人员公开招聘2人笔试历年典型考点解题思路附带答案详解.docx VIP
- 2017年在全县固定资产投资工作培训调度会上的发言 高度重视+落实责任+加快建设+严格奖惩.doc VIP
- 建筑电气工程安全和功能检验资料核查及主要功能抽查记录.docx VIP
- 质量管理自查制度.docx VIP
- 神经病理性疼痛评估与管理中国指南(2024版)要点.pdf
文档评论(0)