网站大量收购独家精品文档,联系QQ:2885784924

数据挖掘与数据库作业解析.pdf.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘与数据库作业解析.pdf

数据挖掘与数据仓库作业解析 一、对事务数据库用Apriori算法寻找频繁项集合,将最小支持度support=40%(即至少有5*40%=2个事务支持)的项称为频繁项。并对其中的频繁四项生成规则,置信度=60%的规则是最终规则。 事务号 项目集 1 A,B,C,D 2 B,C,E 3 A,B,C,E 4 B,D,E 5 A,B,C,D 题目解析: 频繁项生成(由一个或多个项目构成的集合,称为项集。在一个事务数据库中,支持度超过一定阀值的项集,称为频繁项集。) (1)1-频繁项目集L1生成 生成侯选集并通过扫描数据库得到它们的支持数C1;挑选minsup——count=2的项目集组成1-频繁项目集L1。 (2)2-频繁项目集L2生成 由L1生成2-侯选集,L1中单项目集通过两两连接得到2项目集合,并通过扫描数据库得到2项目集的支持数C2;挑选minsup——count=2的项目集组成2-频繁项目集L2。 (3)3-频繁项目集L3生成 由L2生成3-侯选集,L2中2项目集只有一个项目不同的项目通过两两连接得到3项目集合(如AB与AC连接得ABC),并通过扫描数据库得到它们的支持数C3;挑选minsup——count=2的项目集组成3-频繁项目集L3。 (4)4-频繁项目集L4生成 由L3生成4-侯选集,L3中3项目集只有一个项目不同的项目通过两两连接得到4项目集合(如ABC与ABD连接得ABCD),并通过扫描数据库得到它们的支持数C4;挑选minsup——count=2的项目集组成4-频繁项目集L4。 (5)L5生成 由L4生成5-侯选集C5=空集;L5=空集,算法停止。 规则生成 A-BCD 置信度=2/3=67% 60% 采纳规则 AB-CD 置信度=2/3=67% 60% 采纳规则 AC-BD 置信度=2/3=67% 60% 采纳规则 AD-BC 置信度=2/2=100% 60% 采纳规则 ABC-D 置信度=2/3=67% 60% 采纳规则 ABD-C 置信度=2/2=100% 60% 采纳规则 ACD-B 置信度=2/2=100% 60% 采纳规则 BCD-A 置信度=2/2=100% 60% 采纳规则 AB-CD 置信度=2/3=67% 60% 采纳规则 BD-AC 置信度=2/3=67% 60% 采纳规则 BC-AD 置信度=2/3=67% 60% 采纳规则 D-ABC 置信度=2/3=67% 60% 采纳规则 C-ABD 置信度=2/4=50% 60% 不采纳规则 B-ACD 置信度=2/5=40% 60% 不采纳规则 二、用决策树对下表记录分类,找出决策树,并列出决策树表示的规则。其中“下蛋”属性是分类属性。每个属性取值0表示是,1表示否。 热血 羽毛 皮毛 游泳 下蛋 1 1 1 0 0 1 2 0 0 0 1 1 3 1 1 0 0 1 4 1 1 0 0 1 5 1 0 0 1 0 6 1 0 1 0 0 上式表示:D为数据库中6条记录的集合,6条记录中下蛋=1有4条,下蛋=0有2条。 式子前半部分表示6条记录中有4条下蛋=1记录的信息。式子后半部分表示6条记录中有2条下蛋=0记录的信息。 上式表示:D为数据库中6条记录的集合,6条记录中热血=1有5条,热血=0有1条。式子前半部分就表示在5条热血=1的记录中下蛋=1的记录有3条,下蛋=0的记录有2条的信息。式子前半部分就表示在1条热血=1的记录中下蛋=1的记录有1条,下蛋=0的记录有0条的信息。 选择增益值最大的属性作为分类属性,此时选择的属性为羽毛作为分类树的根。 羽毛=1的记录{1,3,4}分类值全是下蛋=1,可以作为分类树一个叶子。 对羽毛=0{2,5,6}的记录分类,这个集合看做D羽毛=0,与上述D的方法相同来计算信息及信息增益。 选择增益值最大的属性作为分类属性,此时选择的属性为热血。热血=1的记录分类值全是下蛋=0,可以作为分类树一个叶子。热血=0的记录分类值全是下蛋=1,可以作为分类树一个叶子。 没有可以作为分类的非叶结点,分类结束。 分类树如下: 遍历分类树,得到分类规则为 (羽毛=1)-(下蛋=1) (羽毛=0)^(热血=0)-(下蛋=1) (羽毛=0)^(热血=1)-(下蛋=0) 三、下面给出一个样本事务数据库,并对它实施K-均值算法。 序号 属性1 属性2 1 1 1 2 2 1 3 1 2 4 2 2 5 4 3 6 5 3 7 4 4 8 5 4 对所给的数据进行k-平均值算法(设n

文档评论(0)

xll805 + 关注
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档