基干Hadoop图书馆复合大数据存储系统探究.doc

下载文档 降价啦

9
0
约 10页
2017-06-08 发布于福建
举报
版权申诉
保障服务

基干Hadoop图书馆复合大数据存储系统探究.doc

1、本文档共10页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基干Hadoop图书馆复合大数据存储系统探究

基干Hadoop图书馆复合大数据存储系统探究　　〔摘要〕Hadoop中的HDFS是大数据存储处理的关键技术，HDFS在存储海量数据集中有着高效、可靠的优点。为解决图书馆传统关系型数据库在海量数据存储和访问效率中存在的瓶颈问题，本文提出了一种基于Hadoop的图书馆复合大数据存储系统。该复合大?稻荽娲⑾低衬芄宦?足图书馆大数据存储需求，提高大数据存储效率，可高效保障图书馆大数据决策的需求〔关键词〕Hadoop；图书馆；大数据；存储系统 DOI：10.3969/j.issn.1008-0821.2017.02.012 〔中图分类号〕G25076〔文献标识码〕A〔文章编号〕1008-0821（2017）02-0063-05 〔Abstract〕HDFS in Hadoop is one of the key technologies of large data storage treatment，HDFS is efficient and reliable in large data storage.To solve the bottleneck problems of the traditional relationship database in compound big data storage and access efficiency of library，in this paper，a compound big data storage system design for library based on hadoop was proposed.The compound big data storage system could solve the problem of big data storage in library，could improve the efficiency of big data storage，and satisfied the big data decision demand of library. 〔Key words〕Hadoop；library；big data；storage system 随着云计算技术、传感器网络技术、移动宽带传输技术和终端设备制造技术的发展，图书馆的服务模式和读者阅读方式发生了巨大变革，以读者为中心的个性化服务定制和服务内容的智能推送，已经成为图书馆当前的主要服务模式。在服务模式和读者阅读方式多样化发展的同时，图书馆的用户服务数据和读者阅读相关数据快速递增，已从TB、PB量级向EB量级急速增长，当前，图书馆数据环境已具有海量（Volume）、快速（Velocity）、多类型（Variety）、难辨识（Veracity）和低价值密度（Value）的大数据5“V”特性，图书馆已进入大数据时代[1] 图书馆大数据主要由用户服务数据、IT基础设施运行数据、视频监控数据、读者个体特征数据、读者阅读行为数据、服务器监控数据、传感器网络数据、阅读终端数据等组成。这些大数据每年平均以50%的速度快速激增，其中非结构化和半结构化数据占据大数据总量的85%以上。此外，图书馆大数据决策系统对数据的存取具有高效、精准、快速和实时的要求，传统的关系型数据存储系统已不能满足图书馆大数据海量、指数级增长、快速存取、高吞吐率的存储需求，因此，必须构建新型的大数据存储系统，才能满足图书馆大数据管理与决策的需求 Hadoop是一个由Apache基金会所开发的分布式系统基础架构，实现了一个分布式文件系统（Hadoop Distributed File System，简称HDFS），用户可以在不了解分布式底层细节的情况下开发分布式程序，充分利用集群的威力进行高速运算和存储。HDFS具有高可靠性、高可扩展性及高容错性的特点，并且设计用来部署在低廉的（Low-cost）硬件设备上。同时，它支持以高吞吐量（High Throughput）来访问应用程序的数据，适合那些有着超大数据集的应用程序[2]。2004年，Google公司提出的MapReduce编程模型，解决了大型分布式计算中的编程模型问题[3]。2006年，雅虎将Hadoop项目从Nutch有哪些信誉好的足球投注网站引擎项目中独立，成为Apache的一个单独子项目。随后，Apache基金会根据MapReduce模型开发出开源的大数据处理框架Hadoop，在Yahoo、IBM、百度等公司得到了大量的应用和快速推广[4]。截至2013年10月，Hadoop220版本已经成功发布，Facebook、阿里巴巴、百度和腾讯都采用Hadoop部署了大数据处理平台[5]。针对图书馆大数据环境特点，基于Hadoop技术构建图书馆大数据存储系统