《列存储数据区级压缩模式与压缩策略选择方法》.pdf

《列存储数据区级压缩模式与压缩策略选择方法》.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《列存储数据区级压缩模式与压缩策略选择方法》.pdf

计算机学报 CHINESE JOURNAL OF COMPUTERS 列存储数据区级压缩模式与压缩策略选择方法 王振玺 1) 乐嘉锦 1) 王梅 1) 刘国华 2) 1) (东华大学计算机科学与技术学院 上海 201620) 2) (计算机软件新技术国家重点实验室 南京大学210093) 摘 要 压缩技术是列存储数据管理的重要研究内容之一。目前多数方法对同一列数据使用单一压缩方法进行压缩,忽略了数据 的局部分布特性,极大的影响了压缩性能。本文提出一种区级压缩模式,并在此模式下提出基于学习的压缩策略选择方法。首先 本文将数据列进一步划分为区,并分别定义相邻区信息与区所在列的统计信息为参照信息,进而通过学习参照信息与当前区之间 的相似性和差异性进行策略推荐。最后本文对区进行局部学习从而对推荐压缩策略进行修正,保证压缩策略的有效性。在数据仓 库基准数据集SSB上的实验结果验证了本文方法的有效性。 关键词 列存储; 数据压缩; 区级压缩模式; 压缩策略选择 中图法分类号:TP311 Sector-based Compression and Compression Strategy Selection Method for Column Stores WANG Zhen-Xi1) LE Ja-Jin1) WANG Mei1) LIU Guo-Hua2) 1) (School of Computer Science and Technology, Donghua University, Shanghai 201620) 2) (State Key Laboratory for Novel Software Technology Nanjing University, P.R. China 210093) , Abstract Compression technology is an important research field in column-oriented management system. However, most previous compression techniques for column-oriented data use same algorithm for all columns, ignoring the local distribution of data, which greatly degrade the compression performance. In this paper, we propose a sector-based compress pattern, under such pattern we further provide a novel learning-based compression strategy selection method for column stores. First, data column is divided into sectors in our method. We respectively extract the neighbor sector information and the statistic information of the column with the given sector as two references. Then we propose to learn the similarity between the reference and the given sector to obtain the recommended compression strategy.. Finally, we improve the r

文档评论(0)

ddwg + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档