大规模数据读入pdf概要.pdf

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
R语言编程技巧 DATAGURU专业数据分析社区 R语言编程技巧第一版 讲师艾达(Ada ) 大规模数据读入 第2课 DATAGURU专业数据分析社区 R语言编程技巧第一版 讲师艾达(Ada ) 本周课程介绍  R语言之数据读入介绍  处理大规模数据的编程要点  读取大型文本文档常用方法  大规模数据读入案例 DATAGURU专业数据分析社区 R特殊编程技巧第一版 讲师艾达 R语言之数据读入介绍  R会把所有的对象读取存入虚拟内存中,内存限制主要取决于R的build版,而在32位的windows 下,取决于操作系统的版本 ,向量中的元素个数最大为2147483647。  文本文档数据读入核心函数:read.table( ) 。此外还有read.csv( ), read.csv2( ), read.delim( ), read.delim2( )等函数与read.table( )类似。 DATAGURU专业数据分析社区 R特殊编程技巧第一版 讲师艾达 R语言之数据读入介绍  企业级大数据处理: - R可以处理GB级的数据 - R分析的结果则是MB级数据的输出 DATAGURU专业数据分析社区 R特殊编程技巧第一版 讲师艾达 read.table( )参数详细讲解  file :文件名,使用一个字符串,可能需要全路径符号\不能出现,可以使用/ 或者\\ ,也可以是一 个文本连接 ,也可以是一个URL链接的文本文档。  header :逻辑值(FALSE或TRUE )文件第一行是否包含变量名(列名),一般最好明确地设定 header 参数。按照惯例,首行只有对应列的字段而没有行标签对应的字段。  sep :文件中字段(列)的分隔符,打开文件可以看到文使用的分隔符,默认选择sep=’’(代表任意 空白字符作为分隔符,如空格,制表符,换行符)  dec :用来标志小数点的字符,有些国家用“,” 来区分小数点。 DATAGURU专业数据分析社区 R特殊编程技巧第一版 讲师艾达 read.table( )参数详细讲解  quote: 字符中有引号,直接用sep=“ ”做分隔符是无法读入函数的,必须配合quote= “”一 起使用,才可以区分出空格分隔符;如果分隔符sep=“ ,”且 quote= “” ,就变成了一个字符 串。  s :用数字或者字符表示表中行号的列,若为NULL则会自动编号。一般当表中包含了 表头时,如果第一行(表头行)的字段比数据的列数少一个时,指定首行为比较有用。  s :指定列名的字符向量。默认是V1 ,V2 ,V3 ,…  as.is :read.table默认将字符型变量转化为因子类,该参数控制列是否保留字符型,可以是逻辑型 ,数值型或者是字符型向量。as.is对每列专用,而不是每个变量。因此,它对行标签(行号)列 也同样适用(如果有的话)。 DATAGURU专业数据分析社区 R特殊编程技巧第一版 讲师艾达 read.table( )参数详细讲解  na.string :代表缺失数据的值,参数na.strings是一个可以包括一个或多个缺损值得字符描述方 式的向量。数值列的空字段也被看作是缺损值。一般不用设置除非有的数据中 “9999”这类表示 缺失值情况出现时需要特别设置。 

文档评论(0)

xiaofei2001128 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档