2011年第4次课 Deep Web 集成与查询new.ppt

  1. 1、本文档共93页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2011年第4次课DeepWeb集成与查询new整理ppt

不确定数据 近四十年来,传统的确定性数据管理技术得到了极大的发展,造就了一个数百亿的数据库产业.在传统数据库(Oracle、DB2、SQL Server)的应用中,数据的存在性和精确性均确定无疑,对数据质量、待处理数据的准确性要求非常高是上述技术的特点。 数据的不确定性普遍存在,不确定性问题逐渐引起了人们的关注,人们开始承认数据不确定性的本质。对于不确定性数据,尽管数据预处理能够提升原始数据集合的质量,但可能会丧失原始数据集合的本来性质,导致无法返回高质量的查询结果。 不确定数据 目前,不确定性数据管理已经成为了一个新的研究焦点: 应用的需要:全球的数据量正在以指数的趋势迅猛增长,不断增长的数据对数据管理提出很多新问题,新应用也不断涌现,有些应用需要对不确定数据进行管理。 数据的需要:当今数据管理系统所要面对的数据已经不再局限于确定性的企业数据,而要处理很多非传统方式产生的数据,这些数据往往是不确定的,具有不确定性的本质。 数据库技术的发展推动了不确定数据管理的研究:对于不确定数据的建模和处理要比管理确定性数据复杂很多,实现起来非常困难,因此,以前的工作在碰到不确定性问题时通常采用回避的态度。随着数据库查询处理新技术的出现,管理不确定数据才逐步成为可能。 不确定数据 与传统的数据管理相比,不确定性数据更加真实的体现了数据与现实的关系,使得数据表示的更加合理,同时伴随着数据库技术的提高使得以前不得不回避的问题有了处理的可能性,为返回高质量的查询结果提供了可能。 对于不确定数据的表示形式最常用的方法有基于概率、统计的表示等。 概率数据集成系统框架 概率中间件模式 对于数据源模式 其概率中间件模式被定义为: 且满足以下条件 1.对于 为 的中间件模式,且 和 为不同的属性聚类 。 2. 概率中间件模式 1-3步,完成了数据源属性的筛选; 4-5步,构建了无向权重图,为中间件模式做准备; 6-8步,描述了构建不同中间件模式的过程。 概率中间件模式 由上述算法我们便可以得到一组中间件模式,然后利用以下算法为其分配概率: 至此,我们得到了一组概率中间件模式。 概率映射 概率映射(匹配)是中间件模式与数据源之间的映射关系,并且每个可能的映射都赋有一定的概率值,该值体现了其对应的可能映射发生的可能程度,其定义如下: 数据源S与中间件模式M之间的概率映射(p-mapping)为 满足: * 是S和M的一个映射,且 * 概率映射 下面举例说明概率映射的生成。 数据源模式S=(A,B),中间件模式M=(A’,B’)。假设我们已经计算出了S与M属性的对应权重为 (其余为0)。我们采用以下方法生成概率映射。 概率映射 至此我们完成了概率中间件模式和概率映射的建立。下面我们以一个例子来描述概率数据集成系统的流程。 实例定义 定义数据源: S1(name,hPhone,hAddr,oPhone,oAddr) S2(name,phone,address) 中间件模式及概率映射中对应的简写: hPhone:hP,oPhone:oP,hAddr:hA,oAddr:oA {phone,hP}:hPP,{phone,oP}:oPP, {address,hA}:hAA,{address,oA}:oAA 假设我们已经生成了S1和S2对应的概率中间件模式M1和M2,并且生成了M1和S1,M2和S1之间的概率映射,具体执行如下所示: select name, phone, address Select name phone address M1 ({name}, {phone, hP}, {oP}, {address, hA}, {oA}),prob=0.5 M2 ({name}, {phone, oP}, {hP}, {address, oA}, {hA}),prob=0.5 M1 ({name}, {phone, hP}, {oP}, {address, hA}, {oA}),prob=0.5 M2 ({name}, {phone, oP}, {hP}, {address, oA}, {hA}),prob=0.5 第4章 Deep Web 数据集成研究 深层网络数据查询策略与方法 源描述 1 源内容描述 2 源能力描述 2 信息源能力描述 对数据源能力的描述通过使用能力记录开展。能力记录 包含最常用的两类能力

文档评论(0)

zyzsaa + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档