- 1、本文档共50页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* 数据挖掘:概念和技术 * 多层关联:冗余过滤 由于“祖先”关系的原因,有些规则可能是多余的。 例子 奶制品 ? 白面包 [support = 8%, confidence = 70%] 酸奶 ? 白面包 [support = 2%, confidence = 72%] 酸奶占奶制品25% 我们称第一个规则是第二个规则的祖先 参考规则的祖先,如果他的支持度与我们“预期”的支持度近似的话,我们就说这条规则是冗余的。 * 数据挖掘:概念和技术 * 数据挖掘查询的逐步精化 为什么要逐步精化 挖掘操作的代价可能高或低,结果可能过细致或粗糙 在速度和质量之间折衷:逐步精化 超集覆盖特征: 预存储所有正面答案—允许进一步正确性验证,而不必验证已经错误的 2或多步挖掘: 先执行粗糙的、容易的操作 (超集覆盖) 然后在减少后的候选集上进行计算量大的算法 (Koperski Han, SSD’95). * 数据挖掘:概念和技术 * 第6章:从大数据库中挖掘关联规则 6.1 关联规则挖掘 6.2由事务数据库挖掘单维布尔关联规则 6.3由事务数据库挖掘多层关联规则 6.4由关系数据库和数据仓库挖掘多维关联规则 6.5由关联挖掘到相关性分析 6.6基于约束的关联挖掘 6.7小结 * 数据挖掘:概念和技术 * 多维关联规则: 概念 单维规则: buys(X, “milk”) ? buys(X, “bread”) 多维规则: 2个以上维/谓词 维间关联规则 (维词不重复) age(X,”19-25”) ? occupation(X,“student”) ? buys(X,“coke”) 混合维关联规则 (维词重复) age(X,”19-25”) ? buys(X, “popcorn”) ? buys(X, “coke”) 类别属性 有限个值, 值之间无顺序关系 数量属性 数字的,值之间隐含了顺序关系 * 数据挖掘:概念和技术 * 挖掘多维关联的技术 有哪些信誉好的足球投注网站频繁k-维词集合: 如: {age, occupation, buys} 是一个3-维词集合。 按照对 age 处理方式的不同,分为: 1. 用静态方法把数值属性离散化 数值属性可用预定义的概念层次加以离散化。 2. 带数量的关联规则 根据数据的分布,动态的把数值属性离散化到不同的“箱”。 3. 基于距离的关联规则 用数据点之间的距离动态的离散化 * 数据挖掘:概念和技术 * 数值属性的静态离散化 在挖掘之前用概念层次先离散化 数值被替换为区间范围 关系数据库中,要找到所有频繁k-维词需要k或k+1次表扫描。 适宜使用数据立方体 N维立方体的每个单元 对应一个维词集合 使用数据立方体速度更快 (income) (age) () (buys) (age, income) (age,buys) (income,buys) (age,income,buys) * 数据挖掘:概念和技术 * 带数量的关联规则 age(X,”30-34”) ? income(X,”24K - 48K”) ? buys(X,”high resolution TV”) 动态 离散化数值属性 使满足某种挖掘标准,如最大化挖掘规则的置信度紧凑性. 2-维数量关联规则: Aquan1 ? Aquan2 ? Acat 用2-维表格把“邻近”的关联规则组合起来 例子 * 数据挖掘:概念和技术 * ARCS (关联规则聚集系统) (170页图6-18) ARCS 流程 1. 分箱 2. 查找频繁维词 集合 3. 关联规则聚类 4. 优化 * 数据挖掘:概念和技术 * ARCS的局限性 数值属性只能出现在规则的左侧 左侧只能有两个属性 (2维) ARCS 的改进 不用基于栅格的方法 等深分箱 基于局部完整性 测度的聚集 “Mining Quantitative Association Rules in Large Relational Tables” by R. Srikant and R. Agrawal. * 数据挖掘:概念和技术 * 挖掘基于距离的关联规则 分箱的方法没有体现数据间隔的语义 基于距离的分割是更有“意义”的离散化方法,考虑: 区间内密度或点的个数 区间内点的“紧密程度 * 数据挖掘:概念和技术 * 第6章:从大数据库中挖掘关联规则 6.1 关联规则挖掘 6.2由事务数据库挖掘单维布尔关联规则 6.3由事务数据库挖掘多层关联规则 6.4由关系数据库和数据仓库挖掘多维关联规则 6.5由关联挖掘到相关性分析 6.6基于约束的关联挖掘 6.7小结 * 数据挖掘:概念和技术 * 强关联规则不一定是有趣的(168例5.8) 由关联分析到相关分
您可能关注的文档
最近下载
- 人教新目标八年级下册英语全册教案(最全).doc
- 中国风能太阳能资源年景公报2014.pdf
- 2021年数学英才登高系列活动(CMTS)试题.pdf
- 对培育当代革命军人核心价值观的调查与思考.docx
- 2013-2022年十年高考英语各题型考点对比分析(共7个专题).pdf
- 某市医疗保障局年深入开展医保领域群众身边腐败和作风问题专项整治工作方案.docx VIP
- 论持久战全文--毛泽东_txt下载.docx
- RIGOL普源精电DSA800配置手册用户手册.pdf
- 【大单元教学】第一单元《民艺蕴情》第2课《多样的中国民间美术》课件(36页)--人美2024版七年级下册.pptx VIP
- 劳动出版社《电机与电气控制(第三版)习题册》答案.pdf
文档评论(0)