- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘与数据库作业解析.pdf
数据挖掘与数据仓库作业解析
一、对事务数据库用Apriori算法寻找频繁项集合,将最小支持度support=40%(即至少有5*40%=2个事务支持)的项称为频繁项。并对其中的频繁四项生成规则,置信度=60%的规则是最终规则。
事务号 项目集 1 A,B,C,D 2 B,C,E 3 A,B,C,E 4 B,D,E 5 A,B,C,D 题目解析:
频繁项生成(由一个或多个项目构成的集合,称为项集。在一个事务数据库中,支持度超过一定阀值的项集,称为频繁项集。)
(1)1-频繁项目集L1生成
生成侯选集并通过扫描数据库得到它们的支持数C1;挑选minsup——count=2的项目集组成1-频繁项目集L1。
(2)2-频繁项目集L2生成
由L1生成2-侯选集,L1中单项目集通过两两连接得到2项目集合,并通过扫描数据库得到2项目集的支持数C2;挑选minsup——count=2的项目集组成2-频繁项目集L2。
(3)3-频繁项目集L3生成
由L2生成3-侯选集,L2中2项目集只有一个项目不同的项目通过两两连接得到3项目集合(如AB与AC连接得ABC),并通过扫描数据库得到它们的支持数C3;挑选minsup——count=2的项目集组成3-频繁项目集L3。
(4)4-频繁项目集L4生成
由L3生成4-侯选集,L3中3项目集只有一个项目不同的项目通过两两连接得到4项目集合(如ABC与ABD连接得ABCD),并通过扫描数据库得到它们的支持数C4;挑选minsup——count=2的项目集组成4-频繁项目集L4。
(5)L5生成
由L4生成5-侯选集C5=空集;L5=空集,算法停止。
规则生成
A-BCD 置信度=2/3=67% 60% 采纳规则
AB-CD 置信度=2/3=67% 60% 采纳规则
AC-BD 置信度=2/3=67% 60% 采纳规则
AD-BC 置信度=2/2=100% 60% 采纳规则
ABC-D 置信度=2/3=67% 60% 采纳规则
ABD-C 置信度=2/2=100% 60% 采纳规则
ACD-B 置信度=2/2=100% 60% 采纳规则
BCD-A 置信度=2/2=100% 60% 采纳规则
AB-CD 置信度=2/3=67% 60% 采纳规则
BD-AC 置信度=2/3=67% 60% 采纳规则
BC-AD 置信度=2/3=67% 60% 采纳规则
D-ABC 置信度=2/3=67% 60% 采纳规则
C-ABD 置信度=2/4=50% 60% 不采纳规则
B-ACD 置信度=2/5=40% 60% 不采纳规则
二、用决策树对下表记录分类,找出决策树,并列出决策树表示的规则。其中“下蛋”属性是分类属性。每个属性取值0表示是,1表示否。
热血 羽毛 皮毛 游泳 下蛋 1 1 1 0 0 1 2 0 0 0 1 1 3 1 1 0 0 1 4 1 1 0 0 1 5 1 0 0 1 0 6 1 0 1 0 0
上式表示:D为数据库中6条记录的集合,6条记录中下蛋=1有4条,下蛋=0有2条。 式子前半部分表示6条记录中有4条下蛋=1记录的信息。式子后半部分表示6条记录中有2条下蛋=0记录的信息。
上式表示:D为数据库中6条记录的集合,6条记录中热血=1有5条,热血=0有1条。式子前半部分就表示在5条热血=1的记录中下蛋=1的记录有3条,下蛋=0的记录有2条的信息。式子前半部分就表示在1条热血=1的记录中下蛋=1的记录有1条,下蛋=0的记录有0条的信息。
选择增益值最大的属性作为分类属性,此时选择的属性为羽毛作为分类树的根。
羽毛=1的记录{1,3,4}分类值全是下蛋=1,可以作为分类树一个叶子。
对羽毛=0{2,5,6}的记录分类,这个集合看做D羽毛=0,与上述D的方法相同来计算信息及信息增益。
选择增益值最大的属性作为分类属性,此时选择的属性为热血。热血=1的记录分类值全是下蛋=0,可以作为分类树一个叶子。热血=0的记录分类值全是下蛋=1,可以作为分类树一个叶子。
没有可以作为分类的非叶结点,分类结束。
分类树如下:
遍历分类树,得到分类规则为
(羽毛=1)-(下蛋=1)
(羽毛=0)^(热血=0)-(下蛋=1)
(羽毛=0)^(热血=1)-(下蛋=0)
三、下面给出一个样本事务数据库,并对它实施K-均值算法。
序号 属性1 属性2 1 1 1 2 2 1 3 1 2 4 2 2 5 4 3 6 5 3 7 4 4 8 5 4
对所给的数据进行k-平均值算法(设n
文档评论(0)