大数据分析方法与技术实务.pptxVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据分析技术与方法

2数据分析时代背景第一部分数据分析平台技术第二部分数据仓库建模方法第三部分目录数据分析与数据挖掘第四部分

数据量增加TBPBZBEB根据IDC监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。数据结构日趋复杂大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴大数据时代正在来临…数据分析时代的背景

体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长占总数据量的80~90%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效大数据的4V特征“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”

Volume海量的数据规模Variety多样的数据类型StreamsRealtimeNeartimeBatchTBPBEBStructuredUnstructuredSemi-structuredAlltheaboveValueVelocity快速的数据流转发现数据价值要解决的问题大数据技术被设计用于在成本可承受的条件下,通过非常快速(velocity)地采集、发现和分析,从大量(volumes)、多类别(variety)的数据中提取数据价值(value),将是IT领域新一代的技术与架构。

分析技术:统计和分析:A/Btest;topN排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真数据处理相关技术海量数据存储:结构化数据:海量数据的查询、统计、更新等操作效率低非结构化数据图片、视频、word、pdf、ppt等文件存储不利于检索、查询和存储半结构化数据转换为结构化存储按照非结构化存储解决方案:Hadoop(MapReduce技术)流计算(twitter的storm和yahoo!的S4)Spark(基于内存的分布式计算)数据采集数据储存数据管理数据分析与挖掘大数据技术:数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL基础架构支持:云存储;分布式文件系统计算结果展现:云计算;标签云;关系图

数据处理与分析框架HIVEPig!分布式文件系统海量数据存储大规模计算智能分析算法ZooKeeper明细数据ETL报表展示数据分析数据挖掘元数据管理数据质量监控数据监控数据集市数据应用汇总加工数据数据应用数据仓库源数据数据平台技术数据仓库架构数据采集数据处理

8数据分析时代背景第一部分数据分析平台技术第二部分数据仓库建模方法第三部分HDFS+MapReduce+HiveStorm+Spark数据分析与数据挖掘第四部分目录

9根据响应时长可以将应用需求进行如下划分:实时应用场景(0~5s):Storm、S4、ClouderaImpala,ApacheDrill等;交互式场景(5s~1m):最好支持SQL,:Shark、ClouderaImpala、ApacheDrill等;非交互式场景(1m~1h):MapReduce、Hive、Pig、Stinger等;批处理场景(1h+)运行时间较长,处理数据量较大,对容错性和扩展性要求较高MapReduce、Hive、Pig、Stinger等。不同分析场景解决方案

Hadoop生态系统ExternalDataSourcesHDFSstoragelayerProcessingFramework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHiveMetastore(HCatalog)Oozie工作流引擎ClouderaNavigator访问授权控制DataaccessedthroughmultipleentrypointsUsersHIVE

11分布式文件系统-HDFS采用主从架构,由一个Namenode和若干个Datanode组成;Namenode:负责管理名字空间

与客户端访问;Datanode:管理附带的存储,

存储文件的block;一个文件分成多个block,Block是HDFS最小存储与分配单位,分布存储,典型块大小为64MB或128MB;一个block

文档评论(0)

xm1640396464 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档