- 1、本文档共38页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Weka入门--简介-数据挖掘-个人整理
从参数上看,可以看出公司的权重是最高的,因为个人偿付金额有限。 接下来是over due fee,它的系数大于但接近1,可以推断,在实际案例中,penalty fee会大于它,但是和他成强相关。 这个是非监督性学习,聚类,和线性回归需要答案不同,这个无需答案,它会对数据根据距离进行分类,最后得出具有相似特性的不同的簇 这个是关联关系,可以发现不同属性之间的强相关规则。不过对于线性回归而言,因为因子是自变量,所以已经假定各因子间没有关联。 这个是根据结果对各个因子进行排行,可以删掉那些无关参数 打开目的文件,决策树适合评价nominal数据 评价指标 kappa stastic 当为1的时候,最好,以为着决策树有效,当为0的时候,和随机方法相同,当为-1的时候,不如随机方法 TP:true positive FP: false negative Precision: TP除以TP+FP Recall: TP除以TP+FN F-measure: 一般情况下,假定贝塔值为1,他的公式是Precision*Recall除以Precision+Recall,可通过调整贝塔值来调整recall和precision的比重 ROC: ROC曲线中auc面积比较重要,这个值越接近1,以为着正确预测相对来说越多 TP以及FP的说明 F-socre 因此F-measure越接近1,说明模型越准确。 此例中,false代表未违约,true代表违约,在true累下,F-measure的值为0,所以违约推算结果并不好 关联规则 如果要挖掘属性之间的相互关系,则需要用到关联规则,关联规则不能够处理连续数据,因此需要离散化 在filter中选中diseretize,并点击apply,数据类型会转化为nominal 然后点击associate选项卡,选中分析关联规则的算法,如Apriori,点击start,关联规则会挖掘比较久 这里要注意两个参数LowerBoundMinSupport,UpperBoundMinSupport和minMetric。 这两个对应的是support(M)和confidence(N)的门槛。当support在lower和upper之间并且confidence大于minMetric的值会被筛选。可以通过提高他们的值来过滤掉一些弱的关联。 N是代表要挖掘多少个关联关系。如此例,就是挖掘top10个关联关系 credit_card_max_number_of_overdue=(-inf-0.1] 240 == credit_card_pastDue=(-inf-118.2] 240 conf:(1) 第一个就代表credit_card_max_number_of_overdue在数字0.1以下的100%的可能credit_card_pastDue的数额小于118 Y N Y TP FN N FP TN 预测值 实际值 Weka Weka简介 线性回归(Linear Regression)分析 决策树(Decision Tree)分析 weka的下载与安装 http://www.cs.waikato.ac.nz/ml/weka/ weka界面介绍 命令行界面,执行简单操作 数据挖掘和分析 设计挖掘流程,类似于流程图 设计自己的实验模型 打开文件.ARFF (Attribute-Relation File Format) Weka支持的数据类型 NUMERIC包括integer和real NOMINAL是分类,需要直接列举出来如{0,1} STRING可包含任何字符串,适合文本数据的挖掘 DATE日期时间yyyy-MM-dd HH:mm:ss 线性回归(Linear Regression) 原可视化窗口 调整pointsize后 调整jitter后 调整jitter后 可以调整x和y轴,发现不同参数的关系 可以看出有penalty fee和over due fee的一般由公司支付 决策树(Decision Tree) 第一期还款 还 未还 低信用 第二期还款 高信用 低信用 还 未还 Decision Tree (J48) J48 是weka的称呼 其实它就是C4.5 它通过用Information Gain和Split Info的比值,避免了ID3会偏向于多个树分叉的缺点,因为Split Info是相对应节点的熵。 会忽略不重要的分支
文档评论(0)