基于非关系型数据库的大规模天文星表数据存储分析-analysis of large-scale astronomical catalog data storage based on non-relational database.docx
- 1、本文档共51页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于非关系型数据库的大规模天文星表数据存储分析-analysis of large-scale astronomical catalog data storage based on non-relational database
目录第一章绪论11.1课题背景11.2研究内容和创新21.3研究意义31.4论文结构3第二章相关背景及技术综述52.1天文星表52.1.1天文星表和天文星表数据库52.1.2天文星表数据的应用72.2非关系型数据库72.2.1NoSQL数据库与CAP法则72.2.2NoSQL数据库的分类、对比及应用8第三章星表数据存储系统133.1天文数据处理流程及分析133.2分层的星表数据存储系统架构153.2.1接口层163.2.2中间层163.2.3操作层173.2.4数据层173.3系统实现简介18第四章基于NoSQL数据库的研究和优化204.1交叉证认和基于Redis的优化204.1.1交叉证认20Healpix索引21基于Redis的交叉证认224.2基于MongoDB的持久化星表数据库244.2.1星表数据在MongoDB中的存储244.2.2Healpix索引的天区划分与边界问题264.2.3分布式MongoDB中的数据分布和索引28第五章实验和性能分析335.2.1实验环境和数据准备365.2.2实验结果和性能讨论36第六章总结与展望436.1总结436.2展望43参考文献45发表论文和参加科研情况说明48致谢49第一章绪论1.1课题背景随着计算机技术在天文领域中的广泛应用,以及天文望远镜本身在设计制造方面的发展和由大规模天文探测器阵列组成的众多天文巡天项目的推进,天文学进入了大规模数据量的时代。现在,大型天文观测所产生出来的数据已经能够达到PB(Petabyte)的数量级[1],这能够为天文学家们去探索一些新的天文现象和天文规律提供帮助,同时也对如何对这些海量数据进行存储和处理并从中提取出所需的信息提出了挑战。AST3(AntarcticSchmidtTelescopes)天文望远镜由三台0.5米望远镜组成,部署在位于南极冰穹A的昆仑站,是我国正在进行中的一项天文巡天项目[2]。第一台AST3望远镜及其控制计算机和存储设备已经于2012年运抵昆仑站部署在南极,并通过运行测试在南极极夜条件下进行观测后由南极科考队取回了一部分数据到国内。另外两台望远镜还在测试当中,将在后续的南极科考中运往南极。目前,AST3天文望远镜每台配备了10K×10K的CCD相机,每2.4分钟可以产生一幅200MB的图像,每天总的数据量是120G×3=360GB。一年四个月总的观测时间中,能够得到43.2TB的原始数据。而随着AST3项目的进一步开展,这样数据量可能会达到PB的数量级。天文数据包括星表、星图、光谱等等多种内容和形式,其中天文星表是包含天体基本信息的数据表格,是天文学家在研究中最常用的天文数据。天文星表的大小有很大差别,小的可能包含几十个星源,大的可能包含上亿甚至上十亿个星源。星表是天文学上的元数据,一般保存每个星体的坐标信息(赤经和赤纬)、星等亮度、温度等,通过按行和列组织数据,每一行是一个星体,每一列是星体的一个属性。天文学家往往先通过查询星表获取需要后续处理的星体信息,然后取出这些星体的图像进行后处理。南极天文台AST3天文望远镜在观测期间,原预计每个星表源的数目估计约为23000个。但是实际观测集中于LMC、银盘等高密度区域时,每个星表约包括10-20万个源。仅仅使用传统数据库方案在实际情况中并不足以达到要求。根据实际测量的数据,一个包含13万颗星的星表,在数据库为空的情况下导入花费104秒;而一个包含50万颗星的星表的导入时间甚至可以达到10分钟。这很显然不能满足南极现场使用的要求,也不利于保证数据运回后的高效利用。因此,我们需要设计一套新的星表数据库方案,既要满足星表高效的交叉证认和导入,也要保证使用过程中查询的效率。1.2研究内容和创新传统的数据存储方式主要有文件系统存储和关系型数据库存储两种。将天文星表数据直接存储为文本数据实现方式较为简单,能够很方便地对数据进行操作,但是在需要对数据进行检索的情况下,需要对数据进行线性扫描,效率低下;而用传统的关系型数据库存储数据表的方式来组织天文数据,能够很好的减少查询的时间,但是天文数据字段多的特点和使用过程中常用的基于时间维度和空间维度的多字段复杂查询,会致使关系型数据库中的索引数目呈指数增长,造成“位数灾难”。因此我们考虑在两者之中选择一个更为折中的方案来解决星表数据的存储问题。非关系型数据库,即NoSQL数据库,是指那些非关系型的,分布式的,且一般不保证遵循ACID原则的数据存储系统。在常见的非关系型数据库中,数据通常以键值对(key-value)的形式存储,且结构不固定,每个元组都可以有不同的字段,可以根据需要增加键值对。NoSQL数据库不需要像关系型数据库那样对多表进行关联查询,可以根据需要的key取出对应的value来进行查询。因此,非关系型数据库在实现天文星表数据的高
您可能关注的文档
- 基于对等技术的网络电话中语音网关系统分析-analysis of voice gateway system in network telephone based on peer-to-peer technology.docx
- 基于多agent协作模型的医疗信息集成分析-analysis of medical information integration based on multi - agent collaboration model.docx
- 基于多标签的自动人脸年龄估计分析-analysis of automatic face age estimation based on multiple tags.docx
- 基于多层递阶岭回归方法的应用技术成果转化系统分析-analysis of application technology achievement transformation system based on multilayer hierarchical ridge regression method.docx
- 基于断线作用的输电塔—线体系连续倒塌动力效应研究-study on dynamic effect of continuous collapse of transmission tower-line system based on disconnection.docx
- 基于多尺度分析技术的无线传感器网络定位算法分析-analysis of localization algorithm for wireless sensor networks based on multiscale analysis technology.docx
- 基于多层次表示的三维同步建模方法分析-analysis of three-dimensional synchronous modeling method based on multi-level representation.docx
- 基于多尺度空间分析的图像模糊测量方法分析-analysis of image blur measurement method based on multiscale spatial analysis.docx
- 基于多尺度计算的尿沉渣图像识别方法分析-analysis of urinary sediment image recognition method based on multiscale calculation.docx
- 基于多尺度小波变换的肿瘤图像纹理研究及其临床应用-research on texture of tumor image based on multiscale wavelet transform and its clinical application.docx
文档评论(0)