Hdspace分布式机构知识库系统的小文件存储.pdf

Hdspace分布式机构知识库系统的小文件存储.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2014年 第23卷 第 2期 http:Nwww.c-S·a.org.ca 计 算 机 系 统 应 用 Hdspace分布式机构知识库系统的小文件擀 卞艺杰,陈 超,李亚冰,陆小亮 (河海大学 南京,211100) 摘 要:机构知识库作为一种新型的学术交流模式和开放获取活动的绿色通道已逐渐成为国内外图书情报界关 注的新焦点,随着机构库的发展其数据规模也在不断扩大,传统的存储模式 已经不能满足 日益增长的存储需求. 在对机构库 内容存储特点的研究基础上建立基于HDFS与Dspace的分布式机构库Hdspace.首先提出一种小文件 合并生成新的存储文件,并对文件提出基于学科分类的两级索引,结合索引预缓存机制提高小文件的读取响应, 为海量小文件存储及后续的信息高效利用提供 了一种解决方案,通过模拟测试显示本模式能够大大提高机构知 识库小文件的存储、读取以及检索效率. 关键词:机构知识库:HDFS;海量小文件;Dspace StorageofSmallFilesinHdspaceDistributingInstitutionalRepositorySystem BIANYi-Jie,CHEN Chao,LIYa—Bing,LU Xiao-Liang (BusinessschoolofHohaiUniversity,Nanjing211100,China) Abstract:ThedevelopmentofInstitutionalRepositoryrequiresamassiveresourceaccumulation,thedemand for storagekeepsincreasingespeciallyofrthesmallfiles.ThisarticleproposesadistributingstoragemodelHdspacewhich isbasedonDapaceandHDFStoresolvetheproblem ofthestorageofmassivesmallfilesofInstitutionalRepository. Firstbyameansofmergingsmalldocumentfilestogetnew storagefiles,thenbyestablishingtwoindexesbasedon subjectsandindexpre-cachingtoimprovethefile-readingresponse,fmallyputforwardamethodofrthestorageof massivesmallfiles. Keywords:institutionalrepository;HDFS;massivesmallfiles;dspace 机构知识库(InstitutionalRepository,简称 IR),又 软件平台的实践开发,开源软件 DSpace、Eprints、 称学术库、机构资料库、机构仓储,源 自“学术交流” Fedora应用最为广泛. 和 “开放获取”两大驱动因素[1】,是学术机构为捕获并 国内 IR研究起步晚于国外,也可 以分为理论和 长期保存机构的知识成果而建立 的数字资源库,也是 技术研究.理论研究主要包括 IR建设制度、政策和 国际图书情报界近几年出现的一个新的应用领域和研 机制 、资源建设刚、内容质量控制[、法律问题 ] 究热点. 等几个方面.技术方面主要是对 Dspace开源软件的 国外 IR研究起步较早,可以分为理论和技术研究 应用实践与二次开发. 两个方面.理论研究主要集中在 IR资源建设、开放获 学术资源的存储是机构知识库的最主要功能,在 取等,文献[]研究了IR 的内容建设并提出了相应的策 存储资源中文档类文件(如 Word、PDF、PPT等)的数 略,文献[01提出运用 OAI—PMH元数据收割技术方便、 量约 占70%,该类文件主要是已发表论文、技术报告、 低成本地获取数据信息,文献[4]提出一些提高作者 白 工作报告、论文预印本、会议报告和调查资料等f9】,特 存储意识以丰富IR内容的途径.技术研究主要是对IR 点是文件本身很小但需要全文检索.随着机

您可能关注的文档

文档评论(0)

lizhencai0920 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6100124015000001

1亿VIP精品文档

相关文档