- 1、本文档共20页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
基于clementine的数据挖掘算法
;;数据挖掘方法论;数据准备—重要性分析;方差分析(AnalysisofVariance)是利用样本数据检验两个或两个以上的总体均值间是否有差异的一种方法。在研究一个变量时,它能够解决多个总体的均值是否相等的检验问题;在研究多个变量对不同总体的影响时,它也是分析各个自变量对因变量影响程度的方法。;例如:调查学生学历对用户做某题的影响;1、提出基本的无效假设:
行分类变量与列分类变量无关联
2、Pearson卡方统计量
其中r为列联表的行数,c为列联表的列数,为观察频数,fe为期望频数。
其中,
RT指定单元格所在行的观测频数合计,CT指定单元格所在列的观测频数合计,n为观测频数总计。
3、确定临界值
显著性水平A,一般为0.05或0.01
卡方观测值大于卡方临界值,拒绝零假设,变量间不独立
卡方观测值小??卡方临界值,接受零假设,变量间独立
;卡方检验应用场景;;决策树模型;信息量的数学定义:
信息熵是信息量的数学期望,是信源发出信息前的平均不确定性,也称先验熵。信息熵的数学定义:
信息熵等于0,表示只存在唯一的信息发送可能,P(ui)=1,没有发送的不确定性;
如果信源的k个信号有相同的发送概率,P(ui)=1/k,则信息发送的不确定性最大,信息熵达到最大
P(ui)差别小,信息熵大,平均不确定性大;反之,差别大,信息熵小,平均不确定性小。;信息熵在C5.0算法中的应用;C5.0算法应用场景;如果样本按“年龄”划分,对一个给定的样本分类所需的期望信息为:
因此,这种划分的信息增益是
Gain(年龄)=I(s1,s2)-E(年龄)=0.246
(2)以相同方法计算其他属性的增益得到
Gain(出账收入)=I(s1,s2)-E(收入)=0.940-0.911=0.029
Gain(智能机)=I(s1,s2)-E(学生)=0.940-0.789=0.151
Gain(信用等级)=I(s1,s2)-E(信用等级)=0.940-0.892=0.048
3、得到较优的分类变量
由于“年龄”属性具有最高信息增益,它被选作测试属性。创建一个节点,用“年龄”标记,并对每个属性值引出一个分支
;出账收入;对表1进行进行细分。
S=5,设类C1对应于“是”,类C2对应于“否”。则s1=2,s2=3,p1=2/5,p2=3/5。
1、计算对给定样本分类所需的期望信息:
2、计算每个属性的熵。
(1)先计算属性“出账收入”的熵。
对于收入=“高”:s11=0,s21=2,p11=0,p21=1,
对于收入=“中等”:s12=1,s22=1,p12=1/2,p22=1/2,
对于收入=“低”:s13=1,s23=0,p13=1,p23=0,
如果按照出账收入”划分的信息增益是:
Gain(收入)=I(s1,s2)-E(收入)=0.971-0.4=0.571
(2)以相同方法计算其他属性的增益得到
Gain(智能机)=I(s1,s2)–E(智能机)=0.971-0=0.971
Gain(信用等级)=I(s1,s2)-E(信用等级)=0.971-0.951=0.02
3、得到分类变量:由于“智能机”属性具有最高信息增益,它被选作测试属性
)收入=“低”:s13=1,s23=0,p13=1,p23=0,
;同理,对表2进行计算。得出属性“信用等级”具有最高信息增益,它被选作测试属性。创建一个节点,用“信用等级”标记,并对每个属性值引出一个分支。最终构造的决策树如下图所示
)收入=“低”:s13=1,s23=0,p13=1,p23=0,
;;C5.0的剪枝算法;取置信度为75%,则,查标准正态分布表得
,分别估计3个节点的误差:
加权求和:
C节点的误差估计:
由于0.50.6,可剪掉叶节点E、F、G
文档评论(0)