《Part-Join:基于划分的字符串相似性连接》.pdf

《Part-Join:基于划分的字符串相似性连接》.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《Part-Join:基于划分的字符串相似性连接》.pdf

第 31卷第 10期 计 算 机 应 用 研 究 Vo1.31No.10 2014年 lO月 ApplicationResearchofComputers 0ct.20l4 Part—Join:基于划分的字符串相似性连接术 陈懿诚,骆吉洲,李建中 (哈尔滨工业大学 计算机科学与技术学院,哈尔滨 150001) 摘 要 :目前 ,已有许多高效的字符 串相似性连接算法被提 出,但是这些算法在过滤的过程 中利用的往往是字 符串本身的局部信息,而忽略了字符串集合的整体信息,故性能没有得到充分的提高。为此,提出了一种基于划 分的算法Part—Join,它从频率向量、字母袁、频率分布三方面对数据集进行子集划分,并给出子集间的过滤策略 用于排除不相似的字符串对。扩展实验表明,Part—Join比已有算法Pass—Join效率提高了10%~15%。 关键词 :相似性连接 ;划分;频率;编辑距离 中图分类号 :TP391 文献标志码 :A 文章编号 :1001—3695(2014)10.3002—05 doi:10.3969/j.issn.1001—3695.2014.10.028 Part—Join:partitionbasedstringsimilarityjoin CHENYi—cheng,LU0Ji—zhou,LIJian—zhong (SchoolofComputerScienceTechonlogy,HarbinInstituteofTechnology,Harbin150001,China) Abstract:Recentlymanyeffieentsimilarityjoinalgorithmshavebeenproposed,however,thesealgorithmsriseonlythelocal informationofthestringsandnegeleettheglobalinformationofthedataset,sotheperformancehasnotbeensufficientlyim— proved.ThispaperproposedPart—Join,whichpartitionedthedatasetintosubsetswiththehelpofrfequencyvector,alphabet andt~equeneydistribution,meanwhile,itdevicedsomeprunningstrategiestofilteroutdissimilarstringpairs.Experimental resultsshowthatthealgorithm presentediSmoreeffieientthanPass—Joinwiththeefficiencyincresedby10% to15%. Keywords:similarityioin;partition;~equency;edit—distance 字符串相似连接是在给定字符串集R和S中找出r R和 个符号W建立倒排索引,(1en,,W);然后利用索引结构为字 S S中的所有相似串对 (r,s),其中字符串间的相似性由特定 符串r选出可能与之相似的所有字符串S;最后利用编辑距离 的度量函数给出。目前,被广泛采用的度量函数包括编辑距 验证 r与S之间的相似性。 离 -3j、Jaccard距 离 、Cosine距离 以及这些距离 的变 本文研究提高Pass—Join效率的有效机制,为叙述方便 ,文 体 。字符串对 (r,s)的编辑距离 ed(r,S)是将r修改为s 中假定用于连接操作的两个数据集合满足R=S(R ≠S时类 需要的基本编辑操作 (插入 、删除、修改单个字符)的最小次 似)

文档评论(0)

ghfa + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档