探索性数据分析2.PPT

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
探索性数据分析2

探索性数据分析2 SPLUS培训 2006.7 主讲人:杨晋浩 探索性数据分析 描述性统计量及其应用 借助图形的数据探索 分类变量的描述及应用 异常点和缺失数据 统计检验及应用 分类变量的描述及应用 规范化问题 数据概化 交叉表 信息提升 分类变量的描述及应用 上海股市03年5月14日部分交易数据。包括:证券代码,价格,省份,股本类别和涨幅。其中股本类别划分:以1亿、10亿为界,分为大盘2,中盘1,小盘0。 两个分类数据SF,gblb 分类变量的概述(部分) *** Summary Statistics for data in: s030514 *** $$$Factor Summaries: SF gblb \260\262\273\325\312\241: 5 0: 70 \261\261\276\251: 1 1:112 \261\261\276\251\312\320:21 2: 8 \270\243\275\250: 1 \270\243\275\250\312\241: 7 \270\312\313\340\312\241: 2 \271\343\266\253\312\241: 5 \271\363\326\335\312\241: 2 \272\243\304\317: 1 \272\243\304\317\312\241: 1 \272\323\261\261\312\241: 5 \272\323\304\317\312\241: 7 \272\332\301\372\275\255: 2 \272\332\301\372\275\255\312\241: 7 数值变量概述 $$$Numeric Summaries: zxj syl Min: 3.270000 -0 1st Qu.: 6.692500 0 Mean: 9.090158 0 Median: 8.170000 0 3rd Qu.: 10.677500 0 Max: 25.000000 0 Total N: 190.000000 190 NAs : 0.000000 0Std Dev.: 3.572815 0Skewness: 1.477810 0Kurtosis: 2.930287 1 分类数据规范化 比较人工分类和自然分类 人工:规范,一致 自然:“上海”和“上海市”应该有相同的值。 类似情况还有很多。 数据规范化问题:数据集成,数据仓库 分类数据规范化处理 s514-s030514 s514[,3]-substring(s030514[,3],1,4) 数据概化:生成人工分类 把股票按价格分为高、中、低三类: 即15元高,=5元中,其余低。 s514c-s514 s514c[,2][s514c[,2]=5]--1 s514c[,2][s514c[,2]5 s514c[,2]=15]-0 s514c[,2][s514c[,2]5 s514c[,2]15]-1 然后将zxj数据类型变为factor 注意:执行顺序的影响。 数据概化:生成人工分类 交叉表 crosstabs( ~ zxj + gbl

您可能关注的文档

文档评论(0)

xiaozu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档