- 1、本文档共51页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数字资源整合的机制与方法
数字资源整合的机制与方法 李广建 (liguangjian@) 主要内容 信息技术对信息服务的影响 信息资源整合 信息技术对信息服务的影响 随着计算机技术、多媒体以及网络技术的飞速发展,信息载体的不断电子化、网络化,信息服务机构(如图书馆、情报机构)的信息技术也随之计算机化、网络化,以满足不断变化和发展的文献信息服务的需求。 信息技术既对信息服务机构带来了机遇、也带来了挑战。 机遇 提供了先进的技术手段 过去手工条件做到的,现在提高了效率 过去想到了,但因条件的限制做不到,现在能做了 过去没想到的,现在也能做了 挑战 过去的很多认识,现在不灵了(观念问题) 运行方式和作业环境发生了翻天覆地的变化(还是图书馆吗?) 用户的要求越来越高了(需求总是很难满足) 从挑战谈起…… 现有图书馆工作模式 流水线式的工作 目录为中心的工作模式 以文献为单元的工作模式 现代信息技术环境下图书馆工作面临的转变 工作的中心由面向馆藏的转变成面向用户的 从基于载体的信息提供转变成是基于内容的信息提供 从馆内服务或面对面的服务转变成网络服务或远程服务 技术和设备在很大程度上会影响工作效果 再看看机遇…… 如果我们转变观念 从图书馆的用户到用户的图书馆 如果我们改变流程 从分立的资源服务到集成整合的服务 如果我们用新技术 从简单的信息检索到个性化的推送 从图书馆的用户到用户的图书馆 总之,要…… 围绕着用户的工作流程构建相关的信息服务; 使用户不离开其工作环境就可使用信息资源; 按照用户的使用习惯组织信息资源和服务; 能根据用户的不同为其组织和装配不同的资源和服务 彻底解决…… 用户看到的一个个孤立的系统,是一个个的建设成果展示; 服务系统自成体系,系统互连性差,不能被相互调用; 系统之的连接关系是零散、无序、任意的甚至是混乱的,没有一个清晰的流程; …… 用户不了解、不明白、不易用、不会用、不能用、不爱用….. 解决方案 信息资源整合 主要内容 信息技术对信息服务的影响 信息资源整合 信息资源整合 整合机制 整合技术 整合机制 目前数字资源整合系统的实现机制可以概括为四种 数据仓库整合机制 Mediator/Wrapper整合机制(中介器/封装器整合机制)、 Agent整合机制 P2P整合机制 整合机制-数据仓库整合机制 数据仓库整合机制是一种物理集成方式,它将不同来源的数字资源按特定的方式(通常是按主题或其它多维方式)建模并存储在同一物理位置(称为数据仓库),提供给用户一个新的、统一的目标数据模式(schema),使得用户能够一站式地访问各种数字资源,从而达到整合的目的。 下图概略地示出了数据仓库整合机制的基本原理 从上图中可以看出,数据仓库整合机制的最根本的特点是物理地存放数字资源,对不同来源的数字资源进行集中管理,简化了用户访问信息的复杂度,提高了数字资源的访问速度和整合系统的性能。 而且,由于实现了不同来源的数字资源的一致性存储,这种整合机制还有利于实施比信息检索更复杂、更深入的数据挖掘、知识发现等服务。 采用数据仓库整合机制进行整合的前提是必须能合法地(例如通过授权)获得来源系统中的数字资源,而且,由于是集中存储要整合的数字资源,因而难以适应网络数字资源类型多样、变化快等特点,同时还会增加本地系统存储与维护的负担。 数据仓库整合机制较适用于自建资源。 数据仓库整合机制所涉及的技术主要有: (1)海量数据存储 (2)ETL技术 (3)信息源的监控与更新 (1)海量数据存储 数据仓库的数据来源于多个信息源(即参与整合的系统中的数字资源),因此具有数据量大、类型复杂的特点,属于海量数据。 解决海量数据的存储问题,除了需要相应的专门设备如磁盘阵列、光盘库、磁带库等,还需要精心地设计存储结构和存储算法,既要保证数字资源有合理的物理存储结构,又要保证有较快的存取速度。 (2)ETL技术 ETL技术是对要加以整合的数字资源进行抽取(Extract)、转换(Transform)、清洗(Cleaning)、装载(Loading)的技术。 对不同来源的数字资源进行物理集成,首先需要从参与整合的系统中抽取出相关数字资源,这需要使用信息抽取技术。 由于信息源是异构的,因此,还必须利用转换技术将不同结构的数字资源规范化,消除异构数字资源之间的不一致性,为来自不同系统的数字资源之间的比较、整合以及统一存储奠定基础; 清洗技术主要是解决信息冗余的去重以及错误和不完整信息的修正、剔除问题; 装载技术则是将清洗后的数字资源按一定的规则加载至数据仓库,形成数据仓库的物理存储结构和逻辑存储结构。 (3)信息源的监控与更新 如前所述,数据仓库整合机制是一种物理整合方式,数据仓库本身与信息源在物理上是分离的,因此必须要解决数据仓库与信息源的同步问题。也就是说,必须
文档评论(0)