- 1、本文档共35页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《大数据》第5节r语言
大数据
BIG DATA
习题
of
44
2
5.1 R语言简介
《大数据》配套PPT课件
用于统计计算和作图的语言
计量经济学
实证金融学
统计遗传学等
免费、开源及
统计模块齐全
R
语言
数据挖掘
机器学习
自然语言处理等
十大热门编程语言第七位
of
44
3
5.1 R语言简介
《大数据》配套PPT课件
基于S语言的一个GNU项目,语法来自Scheme语言,
R语言的源代码正式发布到自由软件协会的FTP上
核心开发团队达到20人,来自牛津大学、ATT实验室等等。
不单是一门语言,更是一个数据计算与分析的环境,内容涵盖了从统计计算到机器学习,从金融分析到生物信息,从社会网络分析到自然语言处理,从各种数据库各种语言接口到高性能计算模型
S语言
2013年
of
44
4
5.1.1R语言产生与发展历程
5.1 R语言简介
《大数据》配套PPT课件
5.1.2 R语言基本功能介绍
数据存储和处理系统
数组运算工具,(其向量、矩阵运算方面功能尤其强大)
完整连贯的统计分析工具
优秀的统计制图功能
R语言是一套完整的数据处理、计算和制图软件系统,主要包括以下功能
of
44
5
5.1 R语言简介
《大数据》配套PPT课件
丰富的数据读取和存储能力
可以保存和加载R语言的数据,与R.data的交互是通过R语言的save( )函数和load()函数实现的
能够加载和导出.csv文件(write.csv()函数和read.csv()函数)
能够导入SPSS/SAS/Matlab等数据集
可以通过RODBC接口,从数据库中导入数据
可以通过odbcConnectExcel接口从Excel表格中导入数据
R语言
读取
存储
of
44
6
5.1 R语言简介
《大数据》配套PPT课件
丰富的数据处理功能
数据挖掘中,需要花70%以上的时间在数据处理上,R语言提供丰富的数据处理功能
筛选
filter() 按给定的逻辑判断筛选出符合要求的子数据集
排列
arrange() 按给定的列名依次对行进行排序
选择
select() 用列名作参数来选择子数据集
变形
mutate()或transformation()用来进行列变形
汇总
summarise()进行汇总操作,返回一维结果
分组
分组动作 group_by()
of
44
7
5.1 R语言简介
《大数据》配套PPT课件
丰富的数据处理能力
向量
因子
数组
矩阵
列表
R语言处理数据的最基本单位是向量,而不是原子数据
R语言定义了一类非常特殊的数据类型:因子
数组是向量和矩阵的直接推广,是由三维或三维以上的数据构成的
较复杂的继承关系,和数组的关系既是父亲又是儿子,还是孙子
列表由向量直接派生而来
数据框
可以将几个不同类型但长度相同的向量合并到一个数据框
特殊值数据
定义了如NULL、NA、NaN、inf等特殊数据
有用函数
提供了获取数据类型信息的一些有用函数
of
44
8
5.1 R语言简介
《大数据》配套PPT课件
统计分析
应用数学
计量经济
金融分析
财经分析
生物信息学
数据可视化
数据挖掘
人工智能
R语言
应用领域
of
44
9
5.1.3 R语言常见的应用领域
习题
of
44
10
5.2 R与数据挖掘
《大数据》配套PPT课件
数据挖掘
数据挖掘(Data Mining)是从大量的数据中发现有趣知识的过程,涉及统计学、机器学习、模式识别等多个交叉;
主要技术包括分类与预测、聚类、离群点检测、关联规则、序列分析和文本挖掘以及社交网络分析和情感分析等。
R语言与数据挖掘有关的任务视图
MachineLearning:主要涉及机器学习和统计学习功能
Cluster:主要涉及聚类分析和有限混合模型
TimeSeries:主要涉及时间序列分析
Multivariate:主要用于多元统计分析及其算法
Spatial:主要用于空间数据分析
R语言主要用于统计计算和统计制图,提供了大量的统计和制图工具
of
44
11
5.2 R与数据挖掘
《大数据》配套PPT课件
分类与预测算法
of
44
12
5.2.1 R软件包与常见的数据挖掘算法介绍
5.2 R与数据挖掘
《大数据》配套PPT课件
分类与预测算法—K-近邻算法
of
44
13
如果一个样本与特征空间中的K个最相似(特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别
library(kknn)
data(iris)
m - dim(iris)[1]
val - sample(1:m, size =round(m/3), replace = FALSE,
+prob= rep(1/m, m))
iris.learn - iris[-val,]
ir
您可能关注的文档
- 虚拟学习社区的探究跟运用.ppt
- 虚拟演播室教本.doc
- 虚拟演播室系统跟其关键技术.doc
- 虚拟演播室专题节座.ppt
- 虚拟仪控程式设计.ppt
- 虚拟仪器faq集锦.doc
- 虚拟仪器labview使用教本.ppt
- 虚拟仪器第2节.ppt
- 虚拟仪器第5节控制程序运行的结构.ppt
- 虚拟语气liyanhua.ppt
- 2016-2017学年高中生物第二单元生态工程与生物安全第1章第2节我国的生态工程教案中图版选修3.doc
- 2022-2023学年小升初英语易错点专练06完形填空15篇(广州教科版专版含答案)2.docx
- 期中专项四年级英语下册(含答案)3.docx
- 期末卷(二)(含答案解析)-2022-2023学年高二历史期中期末复习备考必刷题(选择性必修一国家制度与社会治理).docx
- 第4课欧姆定律的应用第一讲欧姆定律实验探究(原卷版).docx
- Unit1限制性定语从句语法讲义人教版高一英语学生版213.docx
- 2023年宁波市初中毕业升学文化考试科学模拟卷(八).docx
- 5.3细胞呼吸的原理和应用课件高一上学期生物人教版必修12.pptx
- 高中政治更好发挥政府作用教学设计.docx
- 体悟民间故事中的幸福--五上《中国民间故事》导读课.docx
文档评论(0)