- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ETL中适于批量处理的索引机制
ETL中适于批量处理的索引机制
ETL中适于批量处理的索引机制
由于在数据清洗和转换过程中,数据量非常大,而且操作(插入、删除和修改)非常频繁,如果没有一种好的索引机制处理这些操作,那么转换的I/O操作将极其频繁、效率非常低下。
在不同的批量操作中,索引的批量装载吸引了更多的研究注意力。当数据如果采用元组逐个加入的方法时,装载的性能极其低下。不论是在实际系统应用中还是根据文献的对比数据,元组装载方法的性能极其低下。批量装载方法的目标是比元组装载(tuple-loading)的性能要不差或更好些,元组装载时索引是将元组一个接一个插入时建立起来的。
如何尽可能快地装载和处理给定数据集合的索引是当前的一个热点研究课题。下面我们将给出不同批量装载方法及其特别属性的简要综述。为比较这些方法,不同的方面需要考虑在内。某些方法需要整个数据源放在磁盘上。而有些方法则可能接受直接由一个迭代器[Gra 93]传递的数据源。某些方法是内存可娈的,而另一些则在整个运行期间需要固定量的内存。当然有方法不局限于批量装载,还支持批量插入。另外一个事情是方法的首要设计目标:目标的有哪些信誉好的足球投注网站质量还是索引的建立时间谁最重要。我们将不同批量装载方法主要根据其主要的内部技术(sorting,buffering, sampling)进行区别,分成三个不同类型。
#61550; 基于排序的批量装载技术(Sort-based bulk loading)
#61550; 基于缓冲区的批量装载技术(Buffer-based bulk loading)
#61550; 基于取样的批量装载(Sample-based bulk loading)
基于排序的批量装载技术(Sort-based bulk loading)是个良好建立的技术,自它使用在商业数据库系统中,为从头开始创建B+-树。一个B+-树的批量装载首先排序数据然后按由底向上的方式建立索引。对于索引的每一层,节点能够被充分完全包装,除了最右侧的节点。不过,在节点中保留一些空白是可取的,当在批量装载后立即进一步插入时。这种方法的运行时态被排序的开销所主导,需要O(n logmn) I/O。假定存在一个合适的排序,基于顺序的批量装载不限制于一维索引结构,还应用于OP-树。由于OP-树支持整棵树的插入,对于多维索引结构象R- 树,因此就产生了问题:树中什么类型的排序结果会有最好的有哪些信誉好的足球投注网站性能。最早的方法[RL85]之一推荐根据某些维中对象量最少排序数据,而[KF 93]则推荐排序w.r.t. 中心的Hilbert值。在实验[KF93]中使用空间数据显示Hilbert排序给出更好的性能。其他实验[DKL94]则揭示使用Hilbert排序建立的R-树的有哪些信誉好的足球投注网站性能比R*树[BKSS90]的有哪些信誉好的足球投注网站性能差些。在一个数据仓库环境中,维是非常不同的(并且因此符合定义良好的Hilbert值是比较困难的)选择一个维并根据维排序数据[KR98]是较好些。数据仓库中使用这种方法的主要原因是主要的批量插入应该有效地被支持。几种方法可以得到为支持在索引上批量插入,严重地依赖于数据的线性排序([JDO99], [JNS97, KR 98, MNPW00])。
批量装载R-树的另外一种基于排序的方法是在[LEL97]中提出的。这些方法开始按照第一个维(例如:使用空间对象的中心)排序数据源。然后, (N/B)l/d连续分区被生成,每个分区包含(几乎)相同数量的对象。下一步,每个分区被单独排序w.r.t.下一个维。再一次,分区被生成几乎同样大小,此过程被重复直到每个维被处理。最后分区将最终包含最多B个对象。在[LEL97]中它显示了这个基于排序的装载方法创建R-树,其有哪些信誉好的足球投注网站性能比按照 Hilbert排序创建的R-树高一些。不过,这个方法也需要输入被排序d 次。
批量装载的另一个非常不同的方法是基于抽样的。例如,M-树[CP98]批量装载方法就是遵循这种思想。此方法随机地从输入抽样对象,称之为样本,建立结构也称作种子树(seeded-tree)。然后,输入余下的记录被赋给样本之一。对于每个样本,关联数据对象被以相同的方法再处理一次。此方法的结果基本上是一个M-树的M-树,因而此结构提供了某些结构性的属性(未充满的节点、不平衡的结构)与初始M-树的不变值相冲突[CPZ97]。该文作者讨论了不同的策略来得到期望的结构行为。例如,具有少量对象的第二层树被删除,它们的对象被赋给其它样本。这个甚至可能产生一个结构只有一个样本存在。在这种情形下,[CP98]建议以不同的一个取样开始。注意M-树和相关结构象Slim-树[TTSF00]处理距离数据,因而这类数据没有自然的排序。因此,一个基于排序的批量装载不能直接应用到批量装载一个M-树。一种替代方法可能是映射此距离数据到一个矢
文档评论(0)