网站大量收购闲置独家精品文档,联系QQ:2885784924

7-数据仓库与数据挖掘.ppt

  1. 1、本文档共101页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
7-数据仓库与数据挖掘.ppt

由事务数据库挖掘单维布尔关联规则 最简单的关联规则挖掘,即单维、单层、布尔关联规则的挖掘。 最小支持度 50% 最小置信度 50% 对规则A ? C, 其支持度 =50% 置信度 Apriori算法是挖掘产生布尔关联规则所需频繁项集的基本算法,它也是一个很有影响的关联规则挖掘算法。由Agrawal等人于1993年提出。 Apriori算法利用了一个层次顺序有哪些信誉好的足球投注网站的循环方法来完成频繁项集的挖掘工作。这一循环方法就是利用k-项集来产生(k+1)?项集。具体做法就是: 首先,通过扫描数据集,产生一个大的候选数据项集,并计算每个候选数据项发生的次数,然后基于预先给定的最小支持度生成频繁1-项集的集合,该集合记作L1; 然后基于L1和数据集中的数据,产生频繁2-项集L2; 用同样的方法,直到生成频繁n-项集Ln,其中已不再可能生成满足最小支持度的(N+1)-项集。 Apriori算法由连接和剪枝两个步骤组成。 最后,从大数据项集中导出规则。 每挖掘一层,就需要扫描整个数据库一遍。 Apriori算法——示例 Database TDB 1st scan C1 L1 L2 C2 C2 2nd scan C3 L3 3rd scan Tid Items 10 A, C, D 20 B, C, E 30 A, B, C, E 40 B, E Itemset sup {A} 2 {B} 3 {C} 3 {D} 1 {E} 3 Itemset sup {A} 2 {B} 3 {C} 3 {E} 3 Itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} Itemset sup {A, B} 1 {A, C} 2 {A, E} 1 {B, C} 2 {B, E} 3 {C, E} 2 Itemset sup {A, C} 2 {B, C} 2 {B, E} 3 {C, E} 2 Itemset {B, C, E} Itemset sup {B, C, E} 2 最小支持计数:2 */101 * 使用Apiori性质由L2产生C3 1.连接: C3=L2 L2= {{A,C},{B,C},{B,E}{C,E}} {{A,C},{B,C},{B,E}{C,E}} = {{A,B,C},{A,C,E},{B,C,E}} 2.使用Apriori性质剪枝:频繁项集的所有子集必须是频繁的,对候选项C3,我们可以删除其子集为非频繁的选项: {A,B,C}的2项子集是{A,B},{A,C},{B,C},其中{A,B}不是L2的元素,所以删除这个选项; {A,C,E}的2项子集是{A,C},{A,E},{C,E},其中{A,E} 不是L2的元素,所以删除这个选项; {B,C,E}的2项子集是{B,C},{B,E},{C,E},它的所有2-项子集都是L2的元素,因此保留这个选项。 3.这样,剪枝后得到C3={{B,C,E}} 1st scan C1 L1 最小支持计数:2 C2 2st scan C2 最小支持计数:2 L2 C3 C3 L3 */101 * 总结 本章简单介绍了数据仓库与数据挖据的概念及其相关技术,重点掌握以下问题。 1、数据挖掘的常用模式有哪些? 2、什么是数据仓库?请详细阐述其特征。 3、DW的构建需要进行哪些数据预处理过程? 4、试比较OLAP与OLTP的区别。 5、数据仓库的概念模型有哪些?各有什么特点? 6、多维数据模型上的OLAP操作有哪些? 7、何为企业仓库、数据集市?二者有何区别? 8、请分析数据仓库、OLAP、数据挖掘的关系。 9、简单了解关联规则的相关概念及其代表性算法。 */101 * 本章结束 * 多维数据模型的潜力和概念分层的混合 * 数据仓库的构架 * 高层数据模型为不同主题的数据提供一个全局的视图 * 支持度和置信度分别是衡量实用性和确定性的指标 %2的支持度指的是所有的事务(购买记录)中的2%同时购买了计算机和软件 置信度60%意味着购买了计算机的人中,60%也购买了软件 * 支持度和置信度分别是衡量实用性和确定性的指标 %2的支持度指的是所有的事务(购买记录)中的2%同时购买了计算机和软件 置信度60%意味着购买了计算机的人中,60%也购买了软件 */101 * 三层数据仓库架构 (1) 数据仓库 提取 清理 转换 装入 刷新 OLAP服务器 查询报告 分析 数据挖掘 监控、 整合 元数据 存储 数据源 前端工具 输出 数据集市 操作数据库 其他外部信息源 数据仓库服务器 OLAP服务器 */101 * 三层数据仓库架构 (2) 底层:数据仓库的数据库服务器 关注的问题:如何从这一层提取数据来构建数据仓库(通过Gate

文档评论(0)

heroliuguan + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档