- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于RDF的数据集成
基于RDF的数据集成 [摘要]数据集成关注解决异构信息资源的共享问题,致力于将一个一个信息孤岛连接起来。基于RDF技术的数据集成,解决传统数据集成方法不能解决的复杂数据的问题。解决的方法被抽象成三层的逻辑结构,这三层逻辑结构可以集成包括文本格式的数据源、XML格式数据源、html格式数据源以及其它类型的数据库等。 [关键词]全局模式 中间模式 本地模式 RDF 数据集成 一、引言 数据集成是网络发展的要求,是数据共享的要求,是企业应用的要求。由于不同用户提供的数据可能来自不同的途径,其数据内容、数据格式和数据质量更是千差万别,有时甚至会遇到数据格式不能互相转换或数据转换格式后丢失信息等棘手问题,严重阻碍了数据在各部门和各软件系统中的流动与共享。为了改善这个局面,利用数据集成的方法在各种数据之间架起信息沟通和交换的桥梁已经越来越受人们关注。 现在最常用的方法是使用XML作为数据集成的工具。虽然XML已经有了各种版本的解析器,但是XML书写的随意性使得文件中的词汇不具有通用性,必须同时拥有一个处理器来处理词汇的语义。很显然这些程序之间并不存在互换性和通用性。在RDF(Resource Description Framework,简称 RDF)文件中,大家趋于用统一词汇,这使得拥有各种版本的解释器成为可能。XML虽然已经具备了类的某些特点,例如封装,但是与还同时拥有继承性特点的RDF相比XML能表达的数据就简单的多。 XML存在问题的根本原因是XML不具备语义描述能力。为此,W3C推荐以RDF标准来解决XML的语义局限。RDF提出了一个简单的模型用来表示任意类型的数据。这个数据类型由节点和节点之间带有标记的连接弧所组成。节点用来表示Web上的资源,弧用来表示这些资源的属性。因此,这个数据模型可以方便地描述对象(或者资源)以及它们之间关系。RDF的数据模型实质上是一种二元关系的表达,由于任何复杂的关系都可以分解为多个简单的二元关系,因此RDF的数据模型可以作为其他任何复杂关系模型的基础模型。 二、数据集成模型设计 在构建新系统的过程中,经常碰到以下的问题。系统1数据服务器到系统n数据服务器所对应的系统1到系统n的数据正是新系统所需要的数据,而在当时构建旧系统的过程中所使用的数据的设计是按照对应系统的要求设计的,不会也不可能考虑到集成使用的问题。基于RDF的数据集成正是致力于解决以上的问题。 在基于RDF的数据集成的模型设计中,模型被设计成三层,三层模型从高到低分别是:全局层、中间层和本地层。三层模型分别对应于全局模式、中间模式和本地模式。全局模式是面向应用的最终的模式,是应用直接访问的模式,这种模式已经消除了各个本地模式的差异,全局模式对应的数据是通过应用和、差、并、投影等集合运算将中间模式的数据转换成用户可以直接使用的数据,数据的格式是RDF。中间模式是将本地模式的数据转换成公共元数据模型表示的模式,中间模式对应的数据是通过将一个数据源对应成一个对象再根据自定义的对应规则将局部模式的数据转换而成,数据的格式也是RDF。它存在的目的是为将异构的本地数据转换成可实现共享的全局模式做必要的准备。本地模式就是各个数据服务器上存在的异构的数据模式。 三层模型中各个层次为比自己为更高一层提供服务。三个模式之间存在着两级映射,即全局模式/中间模式间的映象,中间模式/本地模式间的映象。在基于RDF的数据集成中,全局模式/中间模式间的映象是唯一的,它确定了数据的中间结果与最终用户调用的数据的对应关系。中间模式/本地模式间的映象也是唯一的。它确定了数据的中间结果与具体的局部的数据存储结构之间的对应关系。 三、建立本地模式 在基于RDF的数据集成中,本地模式的数据可以以多种数据格式存在,包括以各种关系数据库形式存在的数据格式和以RDF为首的文本格式存在的数据格式。基于RDF的数据集成的任务就是要把这些数据格式统一成RDF的形式。 在很多的编程语言中都有读出文本中的内容的API,所以可以很轻易地读取文本文件的数据;对于关系数据库,同样有很多编程语言提供了连接数据库的方法,连接数据库并读取所要的数据也是一件轻易的事情。基于RDF的数据集成兼容的数据格式越多,那么它的适用性就会越强。三层模式的设计可以方便地将多种数据格式兼容进来。 通过读取本地模式的数据后再将这些数据组装成RDF三元组的形式(这种形式是中间模式对应的形式),这种形式的数据很方便被更高层的全局模式所利用。 四、建立中间模式 在实际的应用需求中我们往往面对的是关系数据源的集成问题,因此在本文中我们着力讨论关系数据源的集成问题。中间模式的创建策略如下: (一)每个数据库表对应一个RDF描述文件 该描述文件从逻辑上代表虚拟对象模型系统中的一个类型
文档评论(0)