多库系统与数据集成技术.ppt

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多库系统与数据集成技术

多库系统与数据集成技术 2012年12月8日 一 数据集成技术简介 1.1 数据集成的必要性 1.2 数据集成的概念 1.3 数据集成的特征 1.4 数据集成的分类 1.5 常见数据集成方法(重点) 1.6 数据集成的关键问题 1.7 主流的数据访问技术 1.1 数据集成的必要性 1.2 数据集成的概念 数据集成概念:对各种异构数据提供统一的表示、存储和管理, 以实现逻辑或物理上有机地集中 。 –集成是指维护数据源整体上的数据一致性、提高信息共享利用的效率 –透明是指用户不必考虑底层数据模型不同、位置不同等问题,能够通过一个统一的查询界面实现对网络上异构数据源的灵活访问 数据集成关键:以一种统一的数据模式描述各数据源中的数据,屏蔽它们的平台、数据结构等异构性,实现数据的无缝集成。 1.3 数据集成的特征 分布性:数据源异地分布 –网络传输的性能和安全性 自治性:集成系统不影响各局部应用系统,局部数据源保持独立性 –在不通知集成系统的前提下改变自身的结构和数据 异构性:被集成数据源的运行环境、数据模型和数据语义异构性 –不同的硬件设备、操作系统、网络协议;结构化数据(数据库)、半结构化数据(HTML)、非结构化数据(图片);相同语义数据的不同表达形式 1.4 数据集成的分类 数据集成可以分为下述4个层次 基本数据集成 多级视图集成 模式集成 多粒度数据集成 1.4.1基本数据集成 通用标识符问题是数据集成时遇到的最难的问题之一。由于同一业务实体存在于多个系统源中,并且没有明确的办法确认这些实体是同一实体时,就会产生这类问题。处理该问题的办法如下。 (1)隔离。保证实体的每次出现都指派一个唯一标识符。 (2)调和。确认哪些实体是相同的,并且将该实体的各次出现合并起来。 1.4.1、基本数据集成 当目标元素有多个来源时,指定某一系统在冲突时占主导地位。 数据丢失问题是最常见的问题之一,一般解决的办法是为丢失的数据产生一个非常接近实际的估计值来进行处理。 1.4.2 多级视图集成 多级视图机制有助于对数据源之间的关系进行集成:底层数据表示方式为局部模型的局部格式,如关系和文件;中间数据表示为公共模式格式,如扩展关系模型或对象模型;高级数据表示为综合模型格式。   1.4.2 多级视图集成 视图的集成化过程为两级映射: (1)数据从局部数据库中,经过数据翻译、转换并集成为符合公共模型格式的中间视图。 (2)进行语义冲突消除、数据集成和数据导出处理,将中间视图集成为综合视图。 1.4.3 模式集成 模型合并属于数据库设计问题,其设计的好坏常视设计者的经验而定,在实际应用中很少有成熟的理论指导。 实际应用中,数据源的模式集成和数据库设计仍有相当的差距,如模式集成时出现的命名、单位、结构和抽象层次等冲突问题,就无法照搬模式设计的经验。 在众多互操作系统中,模式集成的基本框架如属性等价、关联等价和类等价可最终归于属性等价 1.4.4 多粒度数据集成 多粒度数据集成是异构数据集成中最难处理的问题,理想的多粒度数据集成模式是自动逐步抽象 数据综合(或数据抽象)指由高精度数据经过抽象形成精度较低、但是粒度较大的数据。其作用过程为从多个较高精度的局部数据中,获得较低精度的全局数据。在这个过程中,要对各局域中的数据进行综合,提取其主要特征。数据综合集成的过程实际上是特征提取和归并的过程。 1.4.4 多粒度数据集成 数据细化指通过由一定精度的数据获取精度较高的数据,实现该过程的主要途径有:时空转换,相关分析或者由综合中数据变动的记录进行恢复。数据集成是最终实现数据共享和辅助决策的基础。 1.5 常见数据集成方法(重点) 1.数据转换方法(联邦数据库系统) –松散集成, 通过转换工具实现应用系统之间的数据转换和交换,较低层次的集成 2.数据聚合方法(中间件模式) –借助于中间件系统构造一个虚拟的全局数据模式, 是一种集中式管理、分布式存储的较高层次的集成模式 3.析取、转换和装载(ETL) (数据仓库模式) –通过对异构数据源中的数据进行分析、转换和装载, 建立一个数据仓库,面向企业决策的数据集成方法 1.5.1 数据转换方法 —联邦数据库系统 通过转换工具在数据库之间进行模式映射,复制、转换数据库中的数据;  联邦数据库系统( FDBS)由半自治数据库系统构成,相互之间分享数据,联盟各数据源之间相互提供访问接口,同时联盟数据库系统可以是集中数据库系统或分布式数据库系统及其他联邦式系统。 在这种模式下又分为紧耦合和松耦合两种情况,紧耦合提供统一的访问模式,一般是静态的,在增加数据源上比较困难;而松耦合则不提供统一的接口,但可以通过统一的语言访问数据源,其中核心的是必须解决所有数据源语义上的问

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档