开源数据分析利器——R的过去现在与未来.ppt

下载文档 降价啦

8
0
约9.46千字
约 92页
2018-03-13 发布于湖北
举报
版权申诉
保障服务

开源数据分析利器——R的过去现在与未来.ppt

1、本文档共92页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

开源数据分析利器——R的过去现在与未来

用 R 进行购物篮分析按需要筛选关联规则 x=subset(rules,subset=rhs%in%whole?milklift=1.2)????#求所需要的关联规则子集?? inspect(sort(x,by=support)[1:5])????#根据支持度对求得的关联规则子集排序并察看其中?lift=P(L,R)/(P(L)P(R)) 是一个类似相关系数的指标。lift=1时表示L和R独立。这个数越大，越表明L和R存在在一个购物篮中不是偶然现象。 * 神经网络动物神经系统运作的原理 * ANN ANN=Artificial Neural Networks，人工神经网络神经元 —— 感知器 * 例子建立数据 x1=c(1,1,1,1,0,0,0,0) x2=c(0,0,1,1,0,1,1,0) x3=c(0,1,0,1,1,0,1,0) y=c(-1,1,1,1,-1,-1,1,-1) * 自学习算法 * 使用R语言实现人工神经网络安装AMORE包。AMORE文档中的一段样例（p12） library(AMORE) # P is the input vector P - matrix(sample(seq(-1,1,length=1000), 1000, replace=FALSE), ncol=1) # The network will try to approximate the target P^2 target - P^2 # We create a feedforward network, with two hidden layers. # The first hidden layer has three neurons and the second has two neurons. # The hidden layers have got Tansig activation functions and the output layer is Purelin. net - newff(n.neurons=c(1,3,2,1), learning.rate.global=1e-2, momentum.global=0.5, error.criterium=LMS, Stao=NA, hidden.layer=tansig, output.layer=purelin, method=ADAPTgdwm) result - train(net, P, target, error.criterium=LMS, report=TRUE, show.step=100, n.shows=5 ) y - sim(result$net, P) plot(P,y, col=blue, pch=+) points(P,target, col=red, pch=x) * 实验改造样例代码，解决之前的问题 P=cbind(x1,x2,x3) target=y net - newff(n.neurons=c(3,1,1), learning.rate.global=1e-2, momentum.global=0.4, error.criterium=LMS, Stao=NA, hidden.layer=tansig, output.layer=purelin, method=ADAPTgdwm) result - train(net, P, target, error.criterium=LMS, report=TRUE, show.step=100, n.shows=5 ) z - sim(result$net, P) z y * 实验结果 * 决策树 decision tree 什么是决策树输入：学习集输出：分类规则（决策树） * 例子用SNS社区中不真实账号检测的例子说明如何使用ID3算法构造决策树。为了简单起见，我们假设训练集合包含10个元素。其中s、m和l分别表示小、中和大。 * 信息增益设L、F、H和R表示日志密度、好友密度、是否使用真实头像和账号是否真实，下面计算各属性的信息增益。 * 根据信息增益选择分裂属性因此日志密度的信息增益是0.276。用同样方法得到H和F的信息增益分别为0.033和0.553。因为F具有最大的信息增益，所以第一次分裂选择F为分裂属性，分裂后的结果如下图表示： * 递归+分而治之在上图的基础上，再递归使用这个方法计算子节点的分裂属性，最终就可以得到整个决策树。这个方法称为ID3算法，还有其它的算法也可以产生决策树对于特征属性为连续值，可以如此使用ID3算法：先将D中元素按照特征属性排序，则每两个相邻元素的中间点可以看做潜在分裂点，从第一个潜在分裂点开始，分