- 1、本文档共37页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
R中大规模数据的整理与分析
邱怡轩
统计之都
2012年5月26日
第五届中国R语言会议
R中大现削海的整理T分杵
2012 年 5 月 26 曰 1/33
概要
第五届中国R语言会议
o大数据?
?R数据库
? R @ ff
O 一个你可能感兴趣的例子
e , w …? -0^0-
R中大现削海的整理T分杵2012 年 5
R中大现削海的整理T分杵
概要
第五昌中国R语言会议
。大数据?
R中大现削海的整理T分杵
2012 年 5 月 26 曰 3 / 33
2012 年 5 月 26 曰 4 / 33
2012 年 5 月 26 曰 6 / 33
概要
第五昌中国R语言会议
?R 0数据库
R中大现削海的整理T分杵
2012 年 5 月 26 曰 7 / 33
简介
,如果原始数据很大,但用来建模的数据较小,则可以先在数据库中 进行整理,然后通过R与数据库的接口提取数据
?数据库适合存放和整理比较规整的数据,和R中的数据框有良好的 对应关系,这也是R中绝大多数统计模型的标准数据结构
?数据库中大部分的运算都不需要消耗很大的内存
O ? ,八? ?O、。
R中大哪涵的安理T分杵 2012年5月26曰 8/33
RODBC
DBI 系列(ROracle, RMySQL, RPostgreSQL, RSQLite)
?在R的层面上避循相同或类似的语法
, RMySQL
http://biostat.me.V/wiki/Main/RMySQL
■ http://ww? google ? com.hk/search?q=site:http:
///cn/%20RMySQL
RPostgreSQL
/cn/r_language/rpostgresql.html
R中大海的整理句分析 2012年5月26曰 9/33
数据库对比
ORAUI- 重量级(1G+),完整的商业支持。
Mg QL- 中量级(30M-50M),功能强大。
昭 QLite
昭 QLite
轻量级(?300K),最大(?)的优势 在于数据库直接保存为单个文件, 便携性强。在R中无需另外安装。
R中大现削海的整理T分杵
2012年5月26曰
10 / 33
连接数据库的主要步骤
1.打开数据库
2.提交SQL语句
3.提取数据
4.关闭数据库
R中大现削海的整理T分杵
2012 年 5 月 26 曰 11/33
打开数据库连接
My PostgreSQL
# 使用 RPostgreSQL 时将 MySQL()改成 dbDriver (HPostgreSQLH) con = dbConnect (MySQL0 , user = Nroot11,
password = donttellyou11, dbname = ”my_db”)
KQLite
con = dbConnect (dbDriver(,,SQLite,1) , dbname = ”my_db?db”)
? CO
R中大现中喊的整理0分析 2012年5月26曰 12/33
Mg
Mg PostgreSQL
冢 QLite
s = dbListTables(con)
s = dbListFields(con, my.table)
口 A?, ?旦,?:g , :g 勺气。
R中大现削海的整理T分tr2012
R中大现削海的整理T分tr
提交查询
MySQL
MySQL PostgreSQL^
肥 QLite
#结果集
res = dbSendQuery(con, select ? from my^table) #获取记录,n = -1表示获取结果集中的所有记录 dat = f etch(res, n = 100)
步到位:
dat = dbGetQuery(con, select ? from my^table limit 100”)
C5? ? * ? ? ? ? ? -OA.G
R中大现削海的整理T分杵2012 年 5
R中大现削海的整理T分杵
关闭数据库连接
Mg
Mg PostgreSQL
眼 QLite
dbDisconnect
dbDisconnect(con)
Of ? ? * * ? w
R中大现削海的整理T分杵2012 年
R中大现削海的整理T分杵
小结
?只取出你需要的数据到内存
?重点是编写SQL语句
, 一个用R SQL做回归的例子
? http://yixuan.cos.nane/en/2011/10/
how-to-run-regression-on-large-datasets-in-r/
?可以使用biglm软件包直接对数据库中的表拟合广义线性模型,包 括普通回归、Logistic回归等
R中大*!海的整理句分析 2012年5月26
文档评论(0)