- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种后缀数组与滑动窗口结合的压缩算法
一种后缀数组与滑动窗口结合的压缩算法
赵友桥1, 王坚1, 路松峰1, 吴志杰2
ZHAO Youqiao1, WANG Jian1, LU Songfeng1, WU Zhijie2
1.华中科技大学 计算机科学与技术学院, 武汉 430074
2.中国工程物理研究院 计算机应用研究所, 四川 绵阳 621900
1.School of Computer Science and Technology,Huazhong University of Science and Technology,Wuhan 430074,China
2. Institute of Computer Application Technology,China Academy of Engineering Physics,Mianyang,Sichuan 621900,China
E-mail: lusongfeng@,Phn: +86
A Sliding Window Compression Algorithm Based on Suffix Array
Abstract:suffix array-based sliding window compression algorithms are inefficient since they will rebuild suffix array for dictionary window after each sliding window. To solve the problem, after analyzing the characteristics of the future suffix array in sliding window, a new method of building a suffix array is proposed. Based the new method, suffix array just need be rebuild partly which makes the efficiency of the presented algorithm is improved, at the mean time, the compression rate of the algorithm can be maintained. The experiment results show that the effectiveness of the proposed algorithm.
Key words:; Sliding Window; Suffix Array
摘 要:关键词; 滑动窗口; 后缀数组
文献标识码: A 中图分类号: TP391
引言
LZ77算法通过使用编码器或解码器中已经出现过的相应匹配数据信息替换当前数据从而实现压缩功能。压缩编码机制Ferreira首先开始关注这个问题,对滑动窗口与后缀树及后缀数组相结合的问题进行了深入研究,研究结果表明后缀数组比后缀树在滑动窗口压缩算法中更有优越性,其需要的内存要远远小于后缀树,但压缩效果稍差。他们在滑动窗口压缩算法中使用后缀数组的基本思路就是,首先对字典窗口建立后缀数组,然后再在后缀数组中查找要匹配的字串,匹配后窗口进行滑动,重新对新的字典建立后缀数组,再重复进行上述匹配,算法的效率在于后缀数组的构建。由于每次都需要完全重构后缀数组,因此算法效率没有达到最优。
在研究了滑动窗口下后缀数组的特点后,提出完全后缀数组的概念。利用完全后缀数组,我们可以在窗口滑动后,只需要部分重构后缀数组即可,进而提出一种新的效率更高的基于后缀数组的滑动窗口压缩算法。
基于后缀数组的滑动窗口压缩算法
完全后缀数组
后缀数组是字符串匹配中常用的数据结构之一。给定一个长度为n的字符串S, 称Sx(i)为S的一个后缀,其中Sx(i) = S[i…n],即Sx(i)为起始位置为i至n的S的一个子串。
S的后缀数组SA(Suffix Array)定义为按照递增顺序排列的S的所有后缀的集合,并把排序后的位置i放入到数组SA中,因此每个后缀可以用Sx(SA[i])表示。
给定两个字符串x和y,如果对于1≤i≤k有x[i] = y[i],但x[k+1]≠y[k+1],则x和y的最长公共前缀L(x,y)为k。
给定一个长度为n的字符串S,S的后缀数组SA和SA的一个后缀Sx(i),如果存在SA另一个后缀Sx(j),使得L(Sx(i), Sx(j)) = n-i+1,则称Sx(i)为S的一个完全后缀,否则Sx(i)不是S的一个完全后缀。
称S的所有完全后缀组成的数组叫完全后缀数组,记作CSA,而所有非完全后缀组成的数组
您可能关注的文档
- 【助剂】抗静电剂机理分类以及应用.doc
- 【化工自控设计规定】阅读笔记.docx
- 【北师大版】七年级数学上册:5.4《应用一元一次方程—打折销售》ppt课件.ppt
- 【北师大版】九年级上册:4.2《平行线分线段成比例》课件.ppt
- 【南方新中考】(南粤专用)2015中考数学+第一部分+第四章+第3讲+第2课时+特殊的平行四边形复习课件.ppt
- 【南方新中考】(南粤专用)2015中考数学+第一部分+第五章+第1讲+图形的轴对称、平移与旋转复习课件.ppt
- 【四清导航】2015-2016学年九年级数学上册4.1.1+比例的基本性质课件+新浙教版.ppt
- 【地奥】PHC管桩方案.doc
- 【学案二】第1节 长度和时间的测量.doc
- 【实战经验】培训经理实战技术操作手册(44页doc).doc
最近下载
- 供方评价表(物流服务).docx VIP
- 给排水国标图集-02S404:防水套管.pdf VIP
- Unit3ComparisonandContrast市公开课一等奖省赛课微课金奖PPT课件.pptx
- 60kW-258kWh磷酸铁锂储能系统项目方案书.pdf
- 数量指标 质量指标 时效指标 成本指标.xls VIP
- 2024年联通新融合发展技能竞赛(业务管理及稽核赛道)试题库(含答案).docx
- 江苏开放大学维修电工第3次形考作业答案.pdf
- 2023冠状动脉造影日间手术专家共识(完整版).pdf
- DB51/T 2919-2022FDIS古树名木养护和抢救复壮及管理技术规程.pdf
- BS EN 16314-2013 国外国际规范.pdf
文档评论(0)