网站大量收购独家精品文档,联系QQ:2885784924

李松林-基于云计算的大数据平台-大数据文档资料.pptx

李松林-基于云计算的大数据平台-大数据文档资料.pptx

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

基于云计算的大数据应用

李松林

2012年10月

主要内容

电子商务的业务领域

亚历山大

面临的问题

业务需求

存储和计算

大数据

存储

r报表

长征之路

依赖成熟的技术

快速服务业务

报表/OLAP

Hadoop

RDBMS

即席查询、数据挖掘

元数据管理、以及其他服务

HBase…

数据同步

实时流式计算

数据流

做法

技术应用:Hadoop以及相关(1)

•基于ClouderaCDH3版本

–增加了补丁和修正

•从最早的几十台,扩展到今天的数百台

•与Hive一起使用

–基于Hive0.8

–函数开发/性能优化

技术应用:Hadoop以及相关(2)

•用途

–日志处理

–预算、汇总

–Ad-hoc查询–挖掘

技术应用:Hadoop以及相关(3)

•Hive应用

–只列出必须使用的列

–分区裁剪

–JoinMapJoin

–数据倾斜

•常见的优化参数

–mapred.map.tasks

–mapred.reduce.tasks

–hive.merge.mapfiles

–press.output

–hive.groupby.skewindata

–hive.optimize.skewjoin

技术应用:Hadoop以及相关(3)

•补丁修复

–SPOF

•加强了运营和监控

–Ganglia+Nagios

–进程监控

•数据质量验证–入口

•流程规范

•人员培训

技术应用:HBase(1)

•应用版本

–基于0.90

–已经升级到0.92

–计划升级到0.94

•用途

–京东数据开放平台

技术应用:HBase(2)

•特性

–高度可扩展

–大数据存储

–高速读写

–Schema按需而变

–数据高度安全

–多重分析计算手段

–1:10的压缩率

技术应用:HBase(3)

•技术应用

–Coprocessor

•Observer

•EndPoint

–聚合函数

–多重索引

–Solr

技术应用:挖掘(1)

预测

技术应用:挖掘(2)

•R

–一个自由的、有效的、用于统计计算和绘图的语言和环境

–线性和非线性模型、统计检验、时间序列、分类、聚类等方法

技术应用:挖掘(3)

/2011/08/poll-languages-for-data-mining-analytics.html

技术应用:挖掘(4)

•Rhadoop

•Rmr

•Rhdfs

•Rhbase

技术应用:流式计算(1)

•MapReduce的批量计算模式不能满足实时的业务需求

•越来越多的业务提供实时的数据支持,支持实时的运营支撑,更大的发挥数据的价值

技术应用:流式计算(2)

•特点:

–流中的数据在线到达,需要实时处理

–无法控制流中数据的顺序,同时流中数据的大小也是不定的

–流中数据处理之后需要归档

–流计算分为有状态和无状态两种

•本质——DAG

–算法(节点)

–数据流(边)

技术应用:流式计算(3)

•Storm

–信息流处理{Streamprocessing}

–连续计算{Continuouscomputation}

–分布式远程程序调用{DistributedRPC}

•让使用更加简单

•常见函数的封装

•业务元组的封装•EPL

•监控

技术应用:流式计算(4)

前段展现

事件收集器

Storm

应用

Websocket

Thrift

谢谢

您可能关注的文档

文档评论(0)

分享吧 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档