利用R语言进行机器学习.ppt

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
利用R语言进行机器学习.ppt

第四次作业安排 基于R语言,运用决策树的分析方法,分析银行的用户账户信息Bank数据,给出分析过程及分类的结果。 数据下载的网址:/ml/datasets/Bank+Marketing# 第四次作业安排 基于Python语言,运用主成分分析的分析方法,将数据集data降维,给出分析过程和结果。 数据下载的网址:/csuldw/MachineLearning/tree/master/PCA * * 利用R语言进行机器学习 利用R语言进行机器学习 R语言简介 R语言特性 机器学习基本概念与一般步骤 R语言对机器学习的支持 利用R语言进行机器学习实例 1. R语言简介 R语言是从S语言演变而来的。 S语言是二十世纪70年代诞生于贝尔实验室,由Rick Becker, John Chambers, Allan Wilks开发。 基于S语言开发的商业软件Splus,可以方便的编写函数、建立模型,具有良好的扩展性,取得了巨大成功。 1995年由新西兰Auckland大学统计系的Robert Gentleman和Ross Ihaka,编写了一种能执行S语言的软件,并将该软件的源代码全部公开,这就是R软件,其命令统称为R语言。 /tiobe-index/r/ /tiobe-index/r/ 2. R语言特性 R语言具有一些非常值得推荐的特性: 多领域的统计资源; 跨平台 R可在多种操作系统下运行; 命令行驱动 R即时解释:输入命令,即可获得相应的结果; R拥有众多的工具包 涵盖统计模型,机器学习,数据可视化,数据导入和导出以及数据整理各个方面。 3. 机器学习基本概念与一般步骤 人是怎么样学习的? 记忆——理解 教学——自学 观察、模仿、类比、归纳、解释 思考以获取知识 反复练习以获得技能 长年累月的学习 3. 机器学习基本概念与一般步骤 机器怎样学习? 模仿人类? 有教师学习——无教师学习——强化学习 学习的方法 记忆学习 示例学习 推理学习 归纳学习 类别学习 3. 机器学习基本概念与一般步骤 (1) 收集数据 (2) 探索数据和准备数据 (3) 基于数据训练模型 (4) 评价模型的性能 (5) 改进模型的性能 4. R语言对机器学习的支持 /269412/widget/notes/191094910/note/535690481/ 5. 利用R语言进行机器学习实例 决策树技术 用于分类和预测; 以实例为基础的归纳学习算法; 它着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。 5. 利用R语言进行机器学习实例 决策树技术 决策树学习通过包括三个步骤:特征选择、决策树的生成、决策树的剪枝; 决策树算法 ID3、C4.5、CART 5. 利用R语言进行机器学习实例 决策树 输入:学习集 输出:分类规则(决策树) 决策树的表示 5. 利用R语言进行机器学习实例 用社区网址中不真实账号检测的例子来说明如何使用ID3算法构造决策树。 为了简单起见,我们假设训练集合中包含10个元素,其中:s, m和l分别表示小、中和大。 5. 利用R语言进行机器学习实例 日志密度 好友密度 是否使用真实头像 账号是否真实 s s no no s l yes yes l m yes yes m m yes yes l m yes yes m l no yes m s no no l m no yes m s no yes s s yes no 5. 利用R语言进行机器学习实例 信息增益是特征选择中的一个重要指标: 它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。 那么如何衡量一个特征为分类系统带来的信息多少呢? 对一个特征而言,系统有它和没它时信息量将发生变化,而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息量,其实就是熵。 5. 利用R语言进行机器学习实例 信息增益 熵 有这么一个变量X,它可能的取值有n多种,分别是x1,x2,……,xn,每一种取到的概率分别是P1,P2,……,Pn,那么X的熵就定义为: 5. 利用R语言进行机器学习实例 信息增益 条件熵 设有随机变量(X, Y),其联合概率分布为: 条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。 5. 利用R语言进行机器学习实例 信息增益 条件熵 随机变量X给定的条件下随机变量Y的条件熵H(Y|X),就定义为X给定条件下Y的条件概率分布的熵对X的数学期望 5. 利用R语言进行机器学习实例 信息增益 特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即: 5. 利用R语言进行机器学习实例 设L、F、H和R表示日志密度、好友密度、是否使用真实头像和账号是

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档