XML代價估计方法研究综述.pptVIP

下载本文档

4
0
约1.09万字
约 45页
2017-04-14 发布于上海
举报
版权申诉

XML代價估计方法研究综述.ppt

1、本文档共45页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

XML代價估计方法研究综述

XML 代价估计方法研究综述 XML Group Outline 研究代价估计的必要性 xml中代价估计研究的难点背景知识介绍现有方法分类研究代价估计的必要性查询优化的基础不同分支对查询目标的选择率不同，如果选择性低的分支先于选择性高的分支执行，就会有效的减少中间结果从而提供查询效率结构连接在XML中是一个很重要的操作，连接的顺序的选择需要计算不同连接顺序的代价及早给用户提供反馈信息 xml中代价估计研究的难点 XML数据的不规则性是对传统统计信息方法的重要挑战，具体表现在以下几个方面：路径依赖性，如同为name结点，在person下和在city下出现意义就完全不同结构相关性嵌套在不同祖先下面的同类结点的个数差别可能很大，如book结点下的author个数是不确定的值相关性 //purchase/Item[type=‘book’][price100] XML的有序性制约了转换规则的灵活性所有这些问题，都使得在xml中采用传统的代价估计方法不切实际，会带来很大的误差。针对xml数据的特点，我们应该寻求一种新的代价估计方法。 Background Knowledge XML Data Model A large, node-labeled tree T(V,E) Background Knowledge XML Data Model A large, node-labeled tree T(V,E) Background Knowledge XML Query Model A node-labeled query tree TQ Each node of TQ is labeled with a variable name qi in Q Each edge (qi,qj) of TQ is annotated with an XPath expression path (qi,qj) that describes the specific structural constraints specified in Q 现有估计方法的分类路径选择性计算 Twig匹配个数统计值谓词选择率估计结构连接代价估计 Overview 路径选择性计算问题描述 /a/b[c/d//e][g//e/f]//*/*/e/f Path Tree Markov Table Ashraf Aboulnaga, Alaa R. Alameldeen, and Jeffry F.Naughton. Estimating the selectivity of XML path expressions for Internet scale applications. VLDB 2001 Path Tree Construction Start from an original path tree Count of nodes in absolute paths Aggregate the tree to fit in the limited space Sibling-* Estimation Match the query against the path tree, matching * as the last resort. Need to decide whether to use total count or average count. An XML document and its path tree Aggregate Path Tree Aggregate Path Tree Sibling-* Summarization Markov Table 构造一个表，存储长度=m的不同路径出现的次数，其中m=2。当查询路径长度=m时，可以直接从表中读出结果，否则，用公式计算。例如，m＝3，查询为//A/B/C/D，则当表不能装入内存的时候，进行剪枝操作。 Markov Table :: Example Twig 匹配个数统计问题描述 Twig Query (basic building block of declarative query languages for XML) XSketch方法 N.Polyzotis, M.Garofalakis. Statistical Synopses for Graph-Structured XML Databases, In Proc.of ACM SIGMOD Conf.2002 N. Polyzotis and M. Garo