网站大量收购闲置独家精品文档,联系QQ:2885784924

大数据处理平台解决方案.docx

  1. 1、本文档共71页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

大数据处理平台解决方案

提纲

1

1

橘云大数据处理平台简介

2

2

橘云大数据处理平台功能与特点

3

3

橘云大数据处理平台部署方案

4

4

橘云大数据处理平台二次开发接口

5

5

橘云大数据处理平台业务场景示例

概念

大数据:大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到抽取,管理,处理,并整理成为帮助企业经营决策更积极目的的资讯。大数据的3V特点:

volume,velocity,variety

大数据的单位:最小的基本单位是Byte,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB,

云计算:(cloudcomputing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。意味着计算能力也可作为一种商品通过互联网进行流通。

云计算是一种通过Internet以服务的方式提供动态可伸缩的虚拟化的资源的计算模式。

云模式:cloudmodel,用于预测云的性能和行为而采用的物理或数学框架

“大数据”时代已经来临

互联网时代,尤其是社交网络、电子商务与移动通讯把人类社会带入一个以PB为单位的结构与非结构数据信息的新时代,它就是“大数据(BigData)”时代。

大数据为云计算的大规模与分布式的计算能力提供了应用的空间,解决了传统计算机无法解决的问题。这个领域的计算标准与软件均刚刚起步,为全世界新型软、硬件及应用创新提供了前所未有的机会。

“大数据”的3V

“大数据”的3V特性

Velocity实时Variety

Velocity实时

Variety多样

数据处理的量级正从TB级向PB

数据处理的量级正从TB级向PB、ZB级扩张。

从延迟、批量处理向实时处理、流式处理转变,支持海量数据的毫秒级运算。

Web数据、语音数据甚至是图像、视频数据。

移动运营商的云计算需求

网民数量增长趋势(亿

)

3.18亿

单个网民日均上网时间增长趋势(小时)

中国手机互联网用户每周手机上网频次统计

44.4%

44.4%

中国手机互联网用户每周媒体接触时长统计

33.3%

33.3%

数据来源:中国互联网发展状况统计报告、中国移动互联网与3G用户调查报告DCCI2010手机互联网受众消费与广告营销调查

面临的问题

随着智能手机的快速普及以及移动互联网业务的迅猛

随着智能手机的快速普及以及移动互联网业务的迅猛发展,各种网络信令、互联网、流量数据信息等数据源竞相引入,对经营分析数据处理及存储要求不断增加,传统的BI数据处理架构在日益增长的计算、存储、可靠性要求以及系统扩容成本等方面均面临着严峻的考验:

计算能力

传统ETL工具对主机性能依赖较大,数据处理任务交错,无法充分利用设备性能。很多在DB/DW中进行的数据校验、转换等工作对应用性能影响较大。

存储能力

存储压力大,海量存储难以满足。存储扩容难度大。

高可靠性

传统ETL方式可靠性不高,运维管理复杂,影响应用的稳定性和数据安全性。

扩容成本

扩容成本高,难度大、主机、存储、数据库成本占系统建设比重大,压缩了应用建设的投入。

结构化和非结构化数据

1、对于IT行业来说

1、对于IT行业来说,大数据,云计算,云模式,无疑是未来的热门研究领域。

2、大数据是由结构化和非结构化的数据组成。

3、结构化数据是存储在数据库里面,占大数据的10%

4、非结构化数据是跟人类信息密切相关的数据,比如说邮件,视频,微博,帖子,手机呼叫,网页点击等。它们占大数据的90%。

1、结构化数据:

1、结构化数据:

任何一列的数据不可以再细分;

任何一列数据都有相同的数据类型;

所有关系型数据库中的数据,全部都是结构化数据;

一般文件中的数据,就不是结构化数据;2、非结构化数据;

不是结构化数据,即非结构化数据;

简单来说,一列的数据可以再细拆分;

HADOOP概念

1、分布式系统(distributedsystem)是建立在网络之上的

1、分布式系统(distributedsystem)是建立在网络之上的软件系统;

2、分布式数据库:分布式数据库系统通常使用较小的计算机系统,每台计算机可单独放在一个地方,每台计算机中都有DBMS的一份完整拷贝副本,并具有自己局部的数据库,位于不同地点的许多计算机通过网络互相连接,共同组成一个完整的、全局的大型数据库。

3、Hadoop是一个分布式文件系统的基础架构,用户可以在不了解分布式底层细节

文档评论(0)

4A方案 + 关注
实名认证
服务提供商

擅长策划,|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

1亿VIP精品文档

相关文档