海量数据的划分和查询方法的研究-计算机应用技术专业论文.docxVIP

海量数据的划分和查询方法的研究-计算机应用技术专业论文.docx

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
万方数据 万方数据 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下进行研究工作所 取得的研究成果。除文中已经注明引用的内容外,本学位论文的研究成果不包 含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所 涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本 学位论文原创性声明的法律责任由本人承担。 学位论文作者签名: 耿梅洁 2015 年 5 月 29 日 非公开学位论文标注说明 (本页表中填写内容须打印) 根据南开大学有关规定,非公开学位论文须经指导教师同意、作者本人申 请和相关部门批准方能标注。未经批准的均为公开学位论文,公开学位论文本 说明为空白。 论文题目 申请密级 □限制(≤2 年) □秘密(≤10 年) □机密(≤20 年) 必威体育官网网址期限 20 年 月 日至 20 年 月 日 审批表编号 批准日期 20 年 月 日 南开大学学位评定委员会办公室盖章(有效) 注:限制★2 年(可少于 2 年);秘密★10 年(可少于 10 年);机密★20 年(可少于 20 年) 摘要 摘要 摘要 随着网络数据、生产数据等持续增加,形成大量的数据,这些数据给存储 和查询带来严峻的挑战。但可凭借数据划分方法将海量数据分块分布存储在多 个机器中,这样既能能解决单机器的存储容量上限问题,也能通过先筛选分块 来缩小查询目标数据的范围,还可利用多机器协同查询以提高数据查询的效 率。 本文为进行数据分块存储和查询需要做一些初始化工作,例如基于机器性 能和数据集特点,按机器个数和经验设置数据区间;选择被划分数据对应的直 角坐标到极坐标的转化公式;设计数据区间索引表,索引表不仅是数据划分的 依据,而且是查询数据时数据筛选的依据,为了提高加权和 Top-K 查询的数据 区间筛选效率,设计线索树结构的索引表,为了提高一般查询的数据区间筛选 效率,设计简单树结构的索引表。本文基于直角坐标到极坐标的转化公式来计 算待划分的数据相应的角度和距离值,并与存储在索引表中的表示预设数据区 间情况的角度和距离范围比较,然后存储在与此数据区间相对应的机器文件 中。从而实现大数据量的文件以小数据量的文件的方式存储,即实现了数据的 划分。随着被划分的数据增多,当某个数据区间对应的文件存储的数据量过大 时,则采用数据区间分裂方法,把该数据区间划分成几份新的数据区间,并将 原数据区间对应的文件中存储的数据重新按角度和距离再次进行划分到该分区 下属的新数据区内对应的文件中,同时修改数据区间索引表的分区信息。此 外,基于本文的数据划分存储方法,给出加权和 Top-K 和一般查询的方法。先 通过索引表找到所属的数据区间所在的文件,再利用 MapReduce 任务对涉及到 的文件中的数据进行并行计算和查询,实现从通过数据筛选缩小查询范围和并 行化加速查询两个方面提高海量数据查询效率。 为验证对大量数据进行数据划分存储能提高数据查询的效率,本文分别用 查找不经过划分存储数据和经过划分存储数据的时间进行对比实验,结果表明 本文采用的数据划分方法较好的提高了海量数据查询的效率。 关键词:数据划分;索引表;坐标计算;数据筛选;并行化查询 I Abst Abstract Abstract With the continual increase of network data, production data, produce large amounts of data, which bring severe challenges to the storage and query. But data partitioning method make the large amounts of data divide into block and store on multiple machines, which can solve the problem of storage capacity limit of single machine, also can by first filter block to reduce the search range of data, also can use the multiple machines do collaboration query in order to improve data query efficiency. To storage with block and query, some initialization work needs to be done, such as: Based on the performance of the machine and t

您可能关注的文档

文档评论(0)

1234554321 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档