- 1、本文档共15页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SEC一种在对等存储网络中的安全纠删码方案-PKU-北京大学.doc
一种基于LCS的相似网页检测算法
黄连恩, 王磊, 李晓明
报告编号 PKU_CS_NCIS_TR2007012 提交时间 2007-12-20 北京大学 信息科学技术学院 网络与信息系统研究所,100871 北京大学 网络与分布式系统实验室, 100871
一种基于LCS的相似网页检测算法?
黄连恩, 王磊, 李晓明
(北京大学 信息科学与技术学院, 100871)
摘要:网页的相似性检测长期以来是一个研究的热点,shingling和simhash被认为是当前最好的两个算法,然而它们存在着一定的不足:一方面,高的分数意味着高的相似概率,但并不必然意味着高的相似度;另一方面,哈希代码的长度和多样性之间的冲突决定了难以同时获得高的准确率和覆盖率。本文提出了一种新型的相似网页检测算法,同时具备高准确率与高覆盖率的优点。该算法采用基于LCS(longest common subsequence)的相似性度量方法,它可以更好地度量网页之间的相似度和包含关系,并获得高的准确度。同时,本文设计了一个包含了三个步骤的检测过程框架,以保证算法的效率。综合实验表明本文的算法同时获得了高准确率与高覆盖率并具有较好的效率。该算法成功应用于4.3亿文章型网页集合,将其分割为0.68亿个相似网页子集,整个过程使用6台Linux服务器仅花费了5天的时间。
关键词: 相似性检测; 消重; 最长公共子序列; 相似性度量
Achieving both High Precision and High Recall in Near-duplicate Detection
Huang Lian’en, Wang Lei, Li Xiaoming
Institute of Network Computing and Information Systems, Peking University
Abstract: To Find near-duplicate documents, fingerprint-based paradigms such as shingling and simhash have been recognized as effective approaches and are considered the state-of-the-art. Nevertheless, we see two aspects of these approaches which may be improved. First, high score under these algorithms similarity measurement implies high probability of similarity between documents, which is different from high similarity of the documents. Second, there has to be a tradeoff between hash-code length and hash-code multiplicity in fingerprint paradigms, which makes it hard to maintain a satisfactory recall level while improving precision. In this paper we propose a new approache of near-duplicate detection for web pages, which has both merits of high precision and high recall. Technically, our approache is based on LCS (longest common subsequence) measurement, together with a 3-step framework, which is carefully designed to ensure high efficiency. A comprehensive experiment was conducted, which shows our method achieves both high precision and high recall. Also, the method has been successfully used to partition a set of 430 million web pages into 68 million subsets of similar pages.
文档评论(0)