字图书馆信息组织.ppt

下载文档 降价啦

2
0
约9.54千字
约 45页
2017-07-27 发布于湖北
举报
版权申诉
保障服务

字图书馆信息组织.ppt

1、本文档共45页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

在面向对象的语义、性能与效率等方面很难提高。完全的面向对象数据库要先建立一个面向对象的数据模型，设计适应面向对象技术的相应语言和面向对象的数据库管理系统（OODBMS）的核心模块。这样才能实现系统结构清晰、效率强大的目标。目前纯粹的面向对象技术在数据库中的应用仍有较大的难度，系统工具、系统环境等仍有待提高到一个新的层次。面向对象数据库技术在数字图书馆中的应用大大提高了系统的服务功能，在互操作、个性化定制服务、用户管理、查询优化方面具有强大的功能。 * （3）非结构化数据库技术非结构化数据库技术是能够存储和管理形式多样的非结构化数据的技术。它把结构化与非结构化数据都作为资源来进行管理，这种技术的特点是可以处理变长数据和重复字段，实现对数据项的变长存储管理，这样对图象、视频等非结构化数据具有重要意义。在数字图书馆中对连续信息（如全文信息）和非结构信息（变长数据和重复数据）的管理具有强大的优势。非结构化数据库技术通过倒排文档对记录快速定位实现查询， * 非结构化数据库在检索方面的特点是采用倒排文档技术对库中的记录高速定位，实现检索。倒排文档在检索功能上灵活高效，检索速度快且不受资源数量大的限制，能够实现字段和子字段的逻辑组配检索、全文任意词的单项检索和组配检索；更重要的是它可以容纳不定长字段，存储机制灵活，适应性强，可以存储网页、图象、文本、视听资料等多媒体信息，对网络中交换的复杂数据格式有很高的适应性。对 * （4）多媒体数据库数字图书馆的资源数量庞大，形式多样，其中多媒体信息是它的资源的重要组成部分。对多媒体信息的管理要通过多媒体数据库实现。关系数据库是目前应用广泛的数据库技术，利用关系数据库可以通过在关系数据库中引入新的抽象数据类型来实现处理，但是这种方法只能在多媒体的输入输出上实现管理，对除输入输出之外的的操作和深层查询，则要求用户自行定义各种相关的操作和查询。所以建立多媒体数据库才能实现对多媒体数据的有效管理。建立多媒体数据库目前有两种方法，一是把各种媒体的数据库整合成一个在功能上统一的多媒体数据库，是一种节约效率的、现实的方案。 * 二是建立一个新的专门处理多媒体数据的新型数据库，不再利用现有的各种媒体的数据库，很显然这种模式不但在技术存在困难，而且在利用现有技术资源上也是一个浪费。所以一般采取第一种方案，该方案是一个三层模型，如图： MDBML UIL MDBL MDMS系统结构 Web Server DB MDB Server Browser DL的MDB系统 * 图6-1由三层构成：第1层UIL，实现系统服务器与用户之间的信息交换，存储用户数据并实现管理；第2层MDBML，实现格式化与非格式化数据的管理，是实现MDBMS功能的核心部分；第3层是MDBL，负责把每个多媒体查询命令翻译（转变）成不同数据库的DBMS能接受（理解）的操作指令，从各库查询后的各种媒体的数据，再组装成一个多媒体数据对象，并输出到UIL（用户终端）。图6-2是一个基于因特网的数字图书馆多媒体数据库系统，由数据库、多媒体数据库服务器、Web服务器、浏览器（用户存储终端）组成。 * （5）数字图书馆的数据仓库技术在DL中一般的功能是实现资源导航和信息提供，还要具有信息分析、决策支持功能，在数字图书馆的大量历史数据中实现数据挖掘，是DL的重要任务。为了向用户提供高层次信息服务，必须在DL中实现对丰富资源的深层开发（二次、三次信息）和处理，所以必须建立DW，以实现支持决策的高层次服务。构建DL的需要分析它的功能，一般数据仓库的体系结构如图： * 数据仓库体系结构数据挖掘系统/数据发布(展现)系统数据集市数据集市数据集市数据集市数据元数据数据清洗/转换提取仓库业务操作系统外部数据数据仓库存储系统数据提取 * ●数据提取（Data Extraction）：DW按分析的主题来组织数据，只提取系统分析必要的那部分数据，如客户购买行为为主题，就仅提取与购买行为有关的数据；一般关系数据库中有各种关系型数据接口，用提取引擎提取数据。 ●数据清洗（Data Cleaning）：就是将错误的、不一致的数据送入数据仓库前予以更正可删除。一般冗余信息存放在不同库中，会产生不一致，更新不同步。 ●数据转化（Data Transformation）把从各种不同的数据库中（如IBM的DB2、Informix、Sybase、SQL Server等）提取的不同数据类型转换成统一格式。如日期：2000-2-3、2/3/2000、2000/2/3等。 * ●提取仓库（Extraction Store）将不一致的数据存入仓库之前要缓存在提取库中