PB级大数据存储技术与分析技术解析.docx

PB级大数据存储技术与分析技术解析.docx

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
必威体育精装版 精品 Word 欢迎下载 可修改 PB级大数据存储技术与分析技术解析 2022年12月2日 目录 TOC \o 13 \h \z \u 一 PB级大数据存储技术解析 2 二 大数据分析系统应躲避的问题 5 三 剖析Hadoop和大数据的七误解 8 四 6个优秀的开源文件系统助力大数据分析 13 五 大数据与关系型数据库是否水火不容?NO…… 17 六 大数据探讨:如何整理1700亿条Twitter发布信息? 21 七 畅谈阿里巴巴的大数据梦 26 八 Twitter利用Storm系统处理实时大数据 35 PB级大数据存储技术解析 对于存储管理人员来说,大数据应该分为大数据存储和大数据分析,这两者的关系是——大数据存储是用于大数据分析的。然而,到目前为止这是两种截然不同的计算机技术领域。本文就重点解析一下PB级大数据存储技术,希望对您有所帮助。 越来越多的存储产品都在融入大数据的概念和功能,并使之成为产品的一大卖点。但对于从事存储管理的专业人员来说,对“大数据〞在具体应用场景中的特点和区别有所了解。 大数据存储致力于研发可以扩展至PB甚至EB级别的数据存储平台;大数据分析关注在最短时间内处理大量不同类型的数据集。 在快速变化的技术趋势中有两个特点需要存储管理人员重视起来。 第一,大数据分析流程和传统的数据仓库的方式完全不同,其已经变成了业务部门级别和数据中心级别的关键应用。这也是存储管理员的切入点。随着根底平台(分布式计算或其它架构)变得业务关键化,用户群较以往更加地依赖这一平台,这也使得其成为企业平安性数据保护和数据管理策略的关键课题。 第二,通常用于数据分析平台的分布式计算平台内的存储不是你以往面对的网络附加存储(NAS)和存储区域网络(SAN)——其通常是内置的直连存储(NAS)以及组成集群的分布式计算节点。这使得管理大数据变得更为复杂,因为你无法像以前那样对这些数据部署平安保护和保存流程。然而,执行这些流程策略的必要性被集成在管理分布式计算集群之中,并且改变了计算和存储层交互的方式。 大数据分析和传统的数据仓库的不同 大数据分析中包含了各种快速成长中的技术。因此,简单用某一种技术尝试对其定义,比方分布式计算,会比较困难。不过,这些定义大数据分析的通用性技术可以用如下特征阐述: 对于传统数据仓库处理流程效率和扩展性方面限制的感知。将数据,不管是结构化还是非结构化数据从多个数据源会聚的能力。以及认识到数据的及时性是扩展非结构化数据源的关键,其中包括移动设备,RFID,网络和不断增长的自动化感知技术。 传统的数据仓库系统通常从现有的关系型数据库中抓取数据。然而,据估计超过80%的企业数据是非结构化的,即无法关系型数据库管理系统(RDBMS),比方DB2和Oracle完成的数据。一般而言,处于此次讨论的目的,非结构化数据可以看成所有无法简单转化到结构化关系型数据库中的所有数据。而企业现在希望从这些非结构化数据类型中抽取有价值的信息,包括: 邮件和其它形式的电子通讯记录 网站上的资料,包括点击量和社交媒体相关的内容 数字视频和音频 设备产生的数据(RFID,GPS,传感器产生的数据,日志文件等)以及物联网 在大数据分析的情况下,查看远多于RDBMS的数据类型十分必要——这代表了各种重要的新信息源。并且随着每年非结构化数据存储总量较结构化数据增长率高出10到50倍,从业务角度看这些数据也变得更为重要。 更重要的数据需要更专业的人员进行分析。但传统的数据仓库技术对海量非结构化数据的处理根本无法满足大数据的需求。所以,存储管理人员也应该更快的跟随技术潮流,更新自己的技术和知识结构,提高自己对大数据的管理和分析能力。 大数据分析系统应躲避的问题 随着互联网技术的不断开展,数据本身是资产,这一点在业界已经形成共识。越来越多的企业涉足到大数据,但是大数据没有想象中的那么简单,所有大数据的属性,包括数量,速度,多样性等反映了数据库不断增长的复杂性。本文从安装搭建等方面展示了大数据分析系统的应该躲避的系列问题。 大数据分析前期要做的事 其实,每一个数据都有一个ETL,就是抽取转化,然后去加载,包括做数据的清洗。如果数据大批量进来的话,有些数据可能是有问题的,马先生举了个例子:比方说,好多地址会写得比较模糊,如果要有哪些信誉好的足球投注网站北京这个词的时候,数据仓库里可能只有一个京字,这些都要统一整理成一个,比方说北京,这样后面分析就会简单,比方山东,有人会输入“鲁〞字来进行有哪些信誉好的足球投注网站,而不是山东,这就需要在大数据分析前期做好数据清理工作,做标准化,这样后面的 HYPERLINK 数据分析起来就方便很多。 搭建大数据分析系统的本卷须知 在搭建大数据分析系统时,有哪些需要注意的事项?马老师提到:首先要弄明

您可能关注的文档

文档评论(0)

189****5087 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7102116031000022
认证主体仪征市思诚信息技术服务部
IP属地江苏
统一社会信用代码/组织机构代码
92321081MA278RWX8D

1亿VIP精品文档

相关文档