海量数据的划分和查询方法的研究-计算机应用技术专业论文.docxVIP

下载本文档

1
0
约5.89万字
约 65页
2019-04-05 发布于上海
举报
版权申诉

海量数据的划分和查询方法的研究-计算机应用技术专业论文.docx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

万方数据万方数据南开大学学位论文原创性声明本人郑重声明：所呈交的学位论文，是本人在导师指导下进行研究工作所取得的研究成果。除文中已经注明引用的内容外，本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体，均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名：耿梅洁 2015 年 5 月 29 日非公开学位论文标注说明 (本页表中填写内容须打印) 根据南开大学有关规定，非公开学位论文须经指导教师同意、作者本人申请和相关部门批准方能标注。未经批准的均为公开学位论文，公开学位论文本说明为空白。论文题目申请密级 □限制(≤2 年) □秘密(≤10 年) □机密(≤20 年) 必威体育官网网址期限 20 年月日至 20 年月日审批表编号批准日期 20 年月日南开大学学位评定委员会办公室盖章(有效) 注：限制★2 年(可少于 2 年);秘密★10 年(可少于 10 年);机密★20 年(可少于 20 年) 摘要摘要摘要随着网络数据、生产数据等持续增加，形成大量的数据，这些数据给存储和查询带来严峻的挑战。但可凭借数据划分方法将海量数据分块分布存储在多个机器中，这样既能能解决单机器的存储容量上限问题，也能通过先筛选分块来缩小查询目标数据的范围，还可利用多机器协同查询以提高数据查询的效率。本文为进行数据分块存储和查询需要做一些初始化工作，例如基于机器性能和数据集特点，按机器个数和经验设置数据区间；选择被划分数据对应的直角坐标到极坐标的转化公式；设计数据区间索引表，索引表不仅是数据划分的依据，而且是查询数据时数据筛选的依据，为了提高加权和 Top-K 查询的数据区间筛选效率，设计线索树结构的索引表，为了提高一般查询的数据区间筛选效率，设计简单树结构的索引表。本文基于直角坐标到极坐标的转化公式来计算待划分的数据相应的角度和距离值，并与存储在索引表中的表示预设数据区间情况的角度和距离范围比较，然后存储在与此数据区间相对应的机器文件中。从而实现大数据量的文件以小数据量的文件的方式存储，即实现了数据的划分。随着被划分的数据增多，当某个数据区间对应的文件存储的数据量过大时，则采用数据区间分裂方法，把该数据区间划分成几份新的数据区间，并将原数据区间对应的文件中存储的数据重新按角度和距离再次进行划分到该分区下属的新数据区内对应的文件中，同时修改数据区间索引表的分区信息。此外，基于本文的数据划分存储方法，给出加权和 Top-K 和一般查询的方法。先通过索引表找到所属的数据区间所在的文件，再利用 MapReduce 任务对涉及到的文件中的数据进行并行计算和查询，实现从通过数据筛选缩小查询范围和并行化加速查询两个方面提高海量数据查询效率。为验证对大量数据进行数据划分存储能提高数据查询的效率，本文分别用查找不经过划分存储数据和经过划分存储数据的时间进行对比实验，结果表明本文采用的数据划分方法较好的提高了海量数据查询的效率。关键词：数据划分；索引表；坐标计算；数据筛选；并行化查询 I Abst Abstract Abstract With the continual increase of network data, production data, produce large amounts of data, which bring severe challenges to the storage and query. But data partitioning method make the large amounts of data divide into block and store on multiple machines, which can solve the problem of storage capacity limit of single machine, also can by first filter block to reduce the search range of data, also can use the multiple machines do collaboration query in order to improve data query efficiency. To storage with block and query, some initialization work needs to be done, such as: Based on the performance of the machine and t