- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
劣质数据库上阈值相似连接结果大小估计 - 计算机学报
第卷第期 计 算 机 学 报
35 10
Vol.35No.10
年月
201210 CHINESEJOURNALOFCOMPUTERS Oct.2012
劣质数据库上阈值相似连接结果大小估计
张岩杨龙王宏志
(哈尔滨工业大学计算机科学与技术学院哈尔滨 )
150001
摘要 , ,
劣质数据普遍存在于现代数据管理系统中严重影响了数据的质量从而降低了数据的实用性以及数据
的价值,这为数据管理带来了新的挑战当前,已经有不少管理劣质数据的数据模型被提出,实体关系数据模型是
.
其中一种,其中每条元组表示一个现实世界中的实体该模型允许劣质数据的存在,给出了衡量数据质量的方法,
.
并且可根据用户对结果质量的需求给出达到一定质量的查询结果鉴于该模型的特点,传统的查询代价估计方法
.
, ,
不再适用需要新的代价估计技术文中研究如何估计连接操作结果的大小提出了在应用局部敏感 算法对
. Hash
, ,
属性值聚类的基础上再进行采样估计的方法并且在聚类过程中考虑数据质量对查询结果的影响与传统随机采
.
,
样方法对比实验结果表明文中估计方法有更好的准确性.
关键词代价估计;采样估计;劣质数据;数据质量;阈值
中图法分类号 号: /
TP311 犇犗犐10.3724SP.J.1016.2012.02159
犛犻犿犻犾犪狉犻狋犑狅犻狀犛犻狕犲犈狊狋犻犿犪狋犻狅狀狑犻狋犺犜犺狉犲狊犺狅犾犱犳狅狉犇犻狉狋犇犪狋犪犫犪狊犲
狔 狔
ZHANGYanYANGLonWANGHonZhi
g g
( , , )
犛犮犺狅狅犾狅犆狅犿狌狋犲狉犛犮犻犲狀犮犲犪狀犱犜犲犮犺狀狅犾狅 犎犪狉犫犻狀犐狀狊狋犻狋狌狋犲狅犜犲犮犺狀狅犾狅 犎犪狉犫犻狀150001
犳 狆 犵狔 犳 犵狔
文档评论(0)