基于大数据的统计方法和工具范例.ppt

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
App Analytics Game Analytics Mobile Ad Tracking Enterprise 游戏运营分析 移动广告监测 企业解决方案 移动应用统计分析 11500+ 应用款数 7.5亿+ 累计覆盖 2500万+ 日活设备 35%覆盖 Top盈收游戏 2.5亿+ 玩家覆盖 1000万+ 日活玩家 49家 网盟对接 40%覆盖 行业广告主 1500万点击 日监测点 两大一线应用市场 三大运营商 四大银行 大数据统计分析案例 TalkingData 计算需求 大数据统计分析案例 大数据统计分析案例 开发人员少 业务方向不清晰 产品需求简单 简单、可用、快速开发 批量插入效率一般 大数据量下Schema变化难 草根时代(HelloWorld) 草根时代 大数据统计分析案例 草根时代(统计分析系统计算模型) count sum group by multi join distinct count 草根时代 大数据统计分析案例 青铜时代 基于Hadoop生态的批处理系统 数据库批量Insert/Update,压力大 数据库读压力小 Schema 更新多 青铜时代 大数据统计分析案例 大数据量 Insert/Update/Delete/优化,均是message lazy式操作,自上而下逐步Flush到leaf节点 天然多版本,无需做undo log Fast insert/ Fast update,延迟小 Schema更改,例如Column增加/删除/更改 青铜时代 青铜时代 大数据统计分析案例 大数据量插入能力,更新能力的确比较突出 InnoDB也不差,和索引、数据Layout、操作模式有关 青铜时代 青铜时代 * 结构化数据:简单的建立一个对应的表就可以了。 非结构化数据:像图片、声音、视频等等。这类信息我们通常无法直接知道他的内容,数据库也只能将它保存在一个BLOB字段中,对以后检索非常麻烦。一般的做法是,建立一个包含三个字段的表(编号 number、内容描述 varchar(1024)、内容 blob)。引用通过编号,检索通过内容描述。现在还有很多非结构化数据的处理工具,市面上常见的内容管理器就是其中的一种。 * 关于大数据的使用差别,其实很多时候我们都在强调一种对于数据的分析方式的差异,在以前,记录一个东西,通常会使用表格方式去进行记录,对一个行为习惯进行统计的时候,就会对这个表格进行排序、叠加或者存储等等的东西,但是在大数据之中有一个概念,那就是关联性。这种关联性有时候很能体现大数据的价值。 以人为例,当我们去看一个东西的时候,比如看见一个物品,这个时候如果能够对它进行量化,通常是记录物品大小、形状、重量。但是在大数据观念领域中,关联性思维会让我们在看到这个杯子的时候,不会想这个杯子的重量,而是关联到这个杯子它适合喝茶还是喝咖啡,这就是关联性比较直观的一个体现。实际上这种关联性并不是通过逻辑叠加出来的,而是需要数据分析。 * 时至今日,互联网上有数以亿计的用户。大数据与云计算已经成为很多主要的互联网应用都在使用或是准备使用的技术,,数据也变得越来越复杂,而且有很多非结构化的数据存在,这是很难通过传统的关系型数据库管理系统来处理的。NoSQL技术则能比较好地解决这个问题,它主要用于非结构化的大数据与云计算上。从这个角度来看,NoSQL是一种全新的数据库思维方式。 很多新数据都是非结构化或是半结构化的,因此开发者还需要能够高效存储这种数据的数据库。但遗憾的是,关系型数据库所使用的定义严格、基于模式的方式是无法快速容纳新的数据类型的,对于非结构化或是半结构化的数据更是无能为力。 NoSQL提供的数据模型则能很好地满足这种需求。 NoSQL数据库从一开始就是分布式、水平扩展的,因此非常适合于互联网应用分布式的特性。 关系型数据库需要在添加数据前先定义好模式。 * 每种数据库依据其不同的功能目标,选择了不同的模型。 * 数据迁移工作 和传统数据库不同大,数据方案的存储是基于分布式文件系统(DFS)构建的,目前可以使用Apache Sqoop来进行关系型数据库和Hadoop之间的海量数据传输,Sqoop可以将可以将标准的关系型数据库中的数据导进到大数据(Hadoop)方案的HDFS中,它支持批量的导入导出。 访问接口改造 和传统数据库利用JDBC、JPA等标准的访问方式不同,大数据(Hadoop)方案是基于Map-Reduce API来进行访问的。Map-Reduce的编程需要一定的经验而且效率也不高,目前Apache提供了Pig Latin来改善此种状况,它在 MapReduce 的基础上创建了更简单的过程语言抽象,为 Hadoop 应用程序提供了一种更加接近结构化查询语言 (SQL) 的接口

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档