- 1、本文档共43页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
必威体育精装版 精品 Word 欢迎下载 可修改
PB级大数据存储技术与分析技术解析
2022年12月2日
目录
TOC \o 13 \h \z \u 一 PB级大数据存储技术解析 2
二 大数据分析系统应躲避的问题 5
三 剖析Hadoop和大数据的七误解 8
四 6个优秀的开源文件系统助力大数据分析 13
五 大数据与关系型数据库是否水火不容?NO…… 17
六 大数据探讨:如何整理1700亿条Twitter发布信息? 21
七 畅谈阿里巴巴的大数据梦 26
八 Twitter利用Storm系统处理实时大数据 35
PB级大数据存储技术解析
对于存储管理人员来说,大数据应该分为大数据存储和大数据分析,这两者的关系是——大数据存储是用于大数据分析的。然而,到目前为止这是两种截然不同的计算机技术领域。本文就重点解析一下PB级大数据存储技术,希望对您有所帮助。
越来越多的存储产品都在融入大数据的概念和功能,并使之成为产品的一大卖点。但对于从事存储管理的专业人员来说,对“大数据〞在具体应用场景中的特点和区别有所了解。
大数据存储致力于研发可以扩展至PB甚至EB级别的数据存储平台;大数据分析关注在最短时间内处理大量不同类型的数据集。
在快速变化的技术趋势中有两个特点需要存储管理人员重视起来。
第一,大数据分析流程和传统的数据仓库的方式完全不同,其已经变成了业务部门级别和数据中心级别的关键应用。这也是存储管理员的切入点。随着根底平台(分布式计算或其它架构)变得业务关键化,用户群较以往更加地依赖这一平台,这也使得其成为企业平安性数据保护和数据管理策略的关键课题。
第二,通常用于数据分析平台的分布式计算平台内的存储不是你以往面对的网络附加存储(NAS)和存储区域网络(SAN)——其通常是内置的直连存储(NAS)以及组成集群的分布式计算节点。这使得管理大数据变得更为复杂,因为你无法像以前那样对这些数据部署平安保护和保存流程。然而,执行这些流程策略的必要性被集成在管理分布式计算集群之中,并且改变了计算和存储层交互的方式。
大数据分析和传统的数据仓库的不同
大数据分析中包含了各种快速成长中的技术。因此,简单用某一种技术尝试对其定义,比方分布式计算,会比较困难。不过,这些定义大数据分析的通用性技术可以用如下特征阐述:
对于传统数据仓库处理流程效率和扩展性方面限制的感知。将数据,不管是结构化还是非结构化数据从多个数据源会聚的能力。以及认识到数据的及时性是扩展非结构化数据源的关键,其中包括移动设备,RFID,网络和不断增长的自动化感知技术。
传统的数据仓库系统通常从现有的关系型数据库中抓取数据。然而,据估计超过80%的企业数据是非结构化的,即无法关系型数据库管理系统(RDBMS),比方DB2和Oracle完成的数据。一般而言,处于此次讨论的目的,非结构化数据可以看成所有无法简单转化到结构化关系型数据库中的所有数据。而企业现在希望从这些非结构化数据类型中抽取有价值的信息,包括:
邮件和其它形式的电子通讯记录
网站上的资料,包括点击量和社交媒体相关的内容
数字视频和音频
设备产生的数据(RFID,GPS,传感器产生的数据,日志文件等)以及物联网
在大数据分析的情况下,查看远多于RDBMS的数据类型十分必要——这代表了各种重要的新信息源。并且随着每年非结构化数据存储总量较结构化数据增长率高出10到50倍,从业务角度看这些数据也变得更为重要。
更重要的数据需要更专业的人员进行分析。但传统的数据仓库技术对海量非结构化数据的处理根本无法满足大数据的需求。所以,存储管理人员也应该更快的跟随技术潮流,更新自己的技术和知识结构,提高自己对大数据的管理和分析能力。
大数据分析系统应躲避的问题
随着互联网技术的不断开展,数据本身是资产,这一点在业界已经形成共识。越来越多的企业涉足到大数据,但是大数据没有想象中的那么简单,所有大数据的属性,包括数量,速度,多样性等反映了数据库不断增长的复杂性。本文从安装搭建等方面展示了大数据分析系统的应该躲避的系列问题。
大数据分析前期要做的事
其实,每一个数据都有一个ETL,就是抽取转化,然后去加载,包括做数据的清洗。如果数据大批量进来的话,有些数据可能是有问题的,马先生举了个例子:比方说,好多地址会写得比较模糊,如果要有哪些信誉好的足球投注网站北京这个词的时候,数据仓库里可能只有一个京字,这些都要统一整理成一个,比方说北京,这样后面分析就会简单,比方山东,有人会输入“鲁〞字来进行有哪些信誉好的足球投注网站,而不是山东,这就需要在大数据分析前期做好数据清理工作,做标准化,这样后面的 HYPERLINK 数据分析起来就方便很多。
搭建大数据分析系统的本卷须知
在搭建大数据分析系统时,有哪些需要注意的事项?马老师提到:首先要弄明
您可能关注的文档
- 创业板上市公司产业整合案例分析.docx
- (项目拓展管理流程)某地产集团公司企业管理流程.docx
- 2022年中秋节及十一黄金周道路运输工作方案.docx
- 6月份昆山房地产市场调查分析报告.docx
- ADSL业务开通和故障处理作业指导手册.docx
- AFE型发动机故障诊断.docx
- aix系统性能管理及oracle案例分析.docx
- AJAX购物网站设计文档.docx
- Apache源代码的Web应用服务器分析.docx
- APQP量具重复性和再现性XR分析数据表.docx
- 2024年江西省寻乌县九上数学开学复习检测模拟试题【含答案】.doc
- 2024年江西省省宜春市袁州区数学九上开学学业水平测试模拟试题【含答案】.doc
- 《GB/T 44275.2-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第2部分:术语》.pdf
- 中国国家标准 GB/T 44275.2-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第2部分:术语.pdf
- GB/T 44285.1-2024卡及身份识别安全设备 通过移动设备进行身份管理的构件 第1部分:移动电子身份系统的通用系统架构.pdf
- 《GB/T 44285.1-2024卡及身份识别安全设备 通过移动设备进行身份管理的构件 第1部分:移动电子身份系统的通用系统架构》.pdf
- 中国国家标准 GB/T 44285.1-2024卡及身份识别安全设备 通过移动设备进行身份管理的构件 第1部分:移动电子身份系统的通用系统架构.pdf
- GB/T 44275.11-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第11部分:术语制定指南.pdf
- 中国国家标准 GB/T 44275.11-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第11部分:术语制定指南.pdf
- 《GB/T 44275.11-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第11部分:术语制定指南》.pdf
最近下载
- 消防控制室工作方案与消防流程.doc
- 幼儿园课件:《食品安全我懂得》.pptx
- 金融投资证券 - 金融投资证券 - 期权、期货和其他衍生品第十版答案手册Options,Futures,andOtherDerivatives-10th-JohnHull&Solutions.pdf
- ×××工程项目建设监理规划(房建).doc
- 脱硫脱硝设备现场安装方案.pdf
- 增强驾驭风险能力_提高科学执政本领(ppt46页).ppt
- 体操头手倒立教学教案.doc VIP
- 242个国家中英文名称对照.xls VIP
- 毕业设计(论文)--某商住楼工程量清单与招标控制价编制.doc
- 毕业设计(论文)--学生公寓楼工程量清单和招标控制价编制.doc
文档评论(0)