网站大量收购独家精品文档,联系QQ:2885784924

海量数据存储数据切分分布式.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
海量数据存储数据切分分布式

海量数据存储 摘要 在当今的信息化时代中,产生了海量的数据和信息资源,急切的需要一种技术对海量数据进行科学的高效率的进行管理。而利用数据库进行海量数据存储是目前运用的方法,但是如何运用数据库以及运用哪种数据库又显得格外重要。根据Mysql数据库的特点,本论文讨论了运用Mysql数据库进行大数据量的存储,以及利用数据切分进行数据优化,来提高海量数据的存储效率。海量数据管理的前景虽然乐观,但目前仍存在很多技术上的难题需要克服。存储策略的研究侧重于空间效率的改进,本文讨论了利用数据切分进行分布式存储的方法。 关键词:海量数据;存储;查询; Mysql;分布式存储; 数据切分 海量数据的研究现状 海量数据的定义 随着科技的不断发展,数字信息存储量在迅速的以指数规模进行增长,人们面对的信息量也越来越多,而这些数据被统称为海量数据。 海量数据都具有如下几个特点:(1)数据规模大;(2)对软硬件和系统资源的要求和占用率都很高;(3) 增长速度快,元数据规模庞大;(4) 数据类型多样,半结构化和非结构化数据比例大。 尽管目前学界对于海量数据的界限众说纷纭,但如果数据具备了上述四个特点中的三个包括三个以上时,一般就被作为海量数据处理了。 国际上海量数据的研究现状 对于目前愈来愈多的信息量,我们如何才能对这些海量数据进行高效的存储、组织、管理呢?这个问题现已成为国内外研究的热点话题。在国外,一些科研工作者已经取得了突破性的研究成果。但需要指出的是,这些工作一般有个共同点,那就是它们主要依托传统的关系型数据库的管理系统,以下两条技术路线,是它们主要的实现方法:①在关系型数据库管理系统中,利用引擎中间件来管理和处理数据,这条路线的主要推动力来自世界上规模较大的GIS厂商,ESRI的SpatialWare, ArcSDE和Maplnfo都是其中广为人知的代表; ②对关系型数据库管理系统进行空间方面的扩展,以此帮助数据库管理海量数据。各大数据库厂商的在这条路线上进行了有力的推动,最著名的产品莫过于甲骨文公司的Oracle Spatial GeoRaster 了 。同类软件中,IBM DB2的Spatial Extender和PostGIS也是其中佼佼者,但美中不足的是,它们的管理能力都很弱。 国内海量数据的研究现状 随着数据库规模的不断扩大,海量数据存储的数据库,也就会占用大量的磁盘空间,因此查询的时间也就会大大延长。另外,根据局部性原理,数据的被访问程度并不是均匀分布的,实际情况是,最近的数据访问频率远远高于相对陈旧的数据。这就构成了査询过程中两对显著的矛盾:查询速度与数据总量之间的矛盾以及数据局部访问和全部访问之间的矛盾;在海量数据査询过程中,两对矛盾更是尤为明显。 目前国内一些学者关于关于查询策略优化的研究主要还是集中在针对物理层的存取方式的设计上,依靠硬件技术和性能方面来实现提高查询效率的效果的。而目前的网络存储技术主要有三种:以服务器为中心的直接连接存储(DAS: Direct AttachedStorage).以数据为中心的网络连接存储(NAS: Network Attached Storage)和以网络为中心的存储区域网络(SAN: Storage AreaNetwork)。 而这三种方式也存在各自的缺陷:DAS模式的缺点:①扩展性差;②资源利用率低;③可管理性差;④异构化严重。NAS的缺点是:①占用网络带宽;企业网NAS设备与客户机连接的中介,因此不管是备份过程还是存储过程,网络的带宽都会被占用一部分。②NAS的可扩展性受到设备大小的限制。SAN模式也有三个缺点:①技术尚处于发展阶段,暂时未能形成统一的标准;②实现阶段要求十分复杂,需要专业的技术人员进行维护,普通用户难以胜任;③价格偏高,普通企业用户难以承担。 海量数据的存储研究 1、海量数据存储的现实状况 目前,随着当今社会信息技术的不断发展,各个行业的信息量都呈现出了爆炸式地增长,TB (1024GB)级数量级已经十分常见,而在地理、生物、天文以及物理等研究领域已经出现大小为PB (1024TB)数量级的文件。比如,一些大型的社交网站,每天需要维护的数据量就已经足够大了;还比如现在现在的测绘行业,随着仪器精度的提高,以及全球化的风潮刮来,所需的测绘保障数据也大大的提高,更多更清晰的影像数据等等都需要较好的数据存储方式。这样,就对海量数据的合理处理提出了更高更新的要求: 容量的方面:容量方面的要求是最基本的要求,海量数据本身质量很大;健壮性方面:对于存储海量数据的数据库,并发操作十分常见,而且数目巨大;对于效率的要求:虽然海量数据的处理难度很大,但是用户对于效率方面的要求并没有降低;数据资源的保护方面:数据资源是企业和单位的宝贵财富,一旦丢失,会造成不可估量的损失。

您可能关注的文档

文档评论(0)

wannian118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档