《大数据》第5节r语言.ppt

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《大数据》第5节r语言

大数据 BIG DATA 习题 of 44 2 5.1 R语言简介 《大数据》配套PPT课件 用于统计计算和作图的语言 计量经济学 实证金融学 统计遗传学等 免费、开源及 统计模块齐全 R 语言 数据挖掘 机器学习 自然语言处理等 十大热门编程语言第七位 of 44 3 5.1 R语言简介 《大数据》配套PPT课件 基于S语言的一个GNU项目,语法来自Scheme语言, R语言的源代码正式发布到自由软件协会的FTP上 核心开发团队达到20人,来自牛津大学、ATT实验室等等。 不单是一门语言,更是一个数据计算与分析的环境,内容涵盖了从统计计算到机器学习,从金融分析到生物信息,从社会网络分析到自然语言处理,从各种数据库各种语言接口到高性能计算模型 S语言 2013年 of 44 4 5.1.1R语言产生与发展历程 5.1 R语言简介 《大数据》配套PPT课件 5.1.2 R语言基本功能介绍 数据存储和处理系统 数组运算工具,(其向量、矩阵运算方面功能尤其强大) 完整连贯的统计分析工具 优秀的统计制图功能 R语言是一套完整的数据处理、计算和制图软件系统,主要包括以下功能 of 44 5 5.1 R语言简介 《大数据》配套PPT课件 丰富的数据读取和存储能力 可以保存和加载R语言的数据,与R.data的交互是通过R语言的save( )函数和load()函数实现的 能够加载和导出.csv文件(write.csv()函数和read.csv()函数) 能够导入SPSS/SAS/Matlab等数据集 可以通过RODBC接口,从数据库中导入数据 可以通过odbcConnectExcel接口从Excel表格中导入数据 R语言 读取 存储 of 44 6 5.1 R语言简介 《大数据》配套PPT课件 丰富的数据处理功能 数据挖掘中,需要花70%以上的时间在数据处理上,R语言提供丰富的数据处理功能 筛选 filter() 按给定的逻辑判断筛选出符合要求的子数据集 排列 arrange() 按给定的列名依次对行进行排序 选择 select() 用列名作参数来选择子数据集 变形 mutate()或transformation()用来进行列变形 汇总 summarise()进行汇总操作,返回一维结果 分组 分组动作 group_by() of 44 7 5.1 R语言简介 《大数据》配套PPT课件 丰富的数据处理能力 向量 因子 数组 矩阵 列表 R语言处理数据的最基本单位是向量,而不是原子数据 R语言定义了一类非常特殊的数据类型:因子 数组是向量和矩阵的直接推广,是由三维或三维以上的数据构成的 较复杂的继承关系,和数组的关系既是父亲又是儿子,还是孙子 列表由向量直接派生而来 数据框 可以将几个不同类型但长度相同的向量合并到一个数据框 特殊值数据 定义了如NULL、NA、NaN、inf等特殊数据 有用函数 提供了获取数据类型信息的一些有用函数 of 44 8 5.1 R语言简介 《大数据》配套PPT课件 统计分析 应用数学 计量经济 金融分析 财经分析 生物信息学 数据可视化 数据挖掘 人工智能 R语言 应用领域 of 44 9 5.1.3 R语言常见的应用领域 习题 of 44 10 5.2 R与数据挖掘 《大数据》配套PPT课件 数据挖掘 数据挖掘(Data Mining)是从大量的数据中发现有趣知识的过程,涉及统计学、机器学习、模式识别等多个交叉; 主要技术包括分类与预测、聚类、离群点检测、关联规则、序列分析和文本挖掘以及社交网络分析和情感分析等。 R语言与数据挖掘有关的任务视图 MachineLearning:主要涉及机器学习和统计学习功能 Cluster:主要涉及聚类分析和有限混合模型 TimeSeries:主要涉及时间序列分析 Multivariate:主要用于多元统计分析及其算法 Spatial:主要用于空间数据分析 R语言主要用于统计计算和统计制图,提供了大量的统计和制图工具 of 44 11 5.2 R与数据挖掘 《大数据》配套PPT课件 分类与预测算法 of 44 12 5.2.1 R软件包与常见的数据挖掘算法介绍 5.2 R与数据挖掘 《大数据》配套PPT课件 分类与预测算法—K-近邻算法 of 44 13 如果一个样本与特征空间中的K个最相似(特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别 library(kknn)   data(iris)   m - dim(iris)[1]   val - sample(1:m, size =round(m/3), replace = FALSE,   +prob= rep(1/m, m))   iris.learn - iris[-val,]   ir

文档评论(0)

karin + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档