网站大量收购闲置独家精品文档,联系QQ:2885784924

讲座3-数据预处理分解.ppt

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第3讲 数据预处理 主要在数据和转换2个菜单进行 数据(Data) 对数据加工,如对数据分组、合并、加权、筛选。 转换(Transform) 对变量操作,如四则运算、数据重新编码、计算变量等。 主要内容 连续变量的可视离散化 选择符合条件的数据 缺失值填补 数据校验 数据文件合并 数据拆分 一、连续变量的离散化 为什么要离散化 可视离散化(可视化分段)(Visual Binning)用于为定量变量(或尺度变量)创建分类变量(或定性变量),从而实现连续变量的离散化。 在统计分析中,有时候需要了解总体的大致分布状况,而不需要了解属性的具体信息。例如,调查居民的收入水平,实际得到的是以“元”计数的具体收入值。有时候用户最关心的是处于贫困线以下的居民、中等收入的居民和高收入的居民各占多大比例。这时候,可以对定量变量年收入进行“可视离散化”,创建一个包括处于贫困线以下、中等收入和高收入三个类别的新分类变量。 我们收集了居民具体的年龄数值,但我们关心的是处于各个年龄段的人群的比例。此时,可以对定量变量年龄进行“可视离散化”,创建一个包括青年、中年、老年三个类别的新分类变量。 动手练习 打开数据文件1991 U.S. General Social Survey.sav 在原始数据文件中,为了解各个年龄段人群的分布情况,需要对年龄变量进行可视化分段。 可视离散化方法 SPSS的可视化分段提供两类分段的方法:直接输入分割点和根据条件自动生成分割点。 根据条件自动生成分割点提供了三种自动生成分割点的方法:等宽间隔、基于已扫描个案的等百分位和基于已扫描个案的均值和标准差。 SPSS输入界面 直接输入分割点 根据条件自动生成分割点 根据条件自动生成分割点 等间隔-指定间隔或者分割点数量 等百分比个案 基于均值和标准差 二、选择符合条件的数据 为什么要选择数据 有时候,我们仅仅需要对数据集中的一部分进行分析。 例如,我们仅仅需要分析女性的工资和工作年限之间的关系… 动手练习 对1991 U.S. General Social Survey.sav进行个案选择,选择条件为“女性、白种人、生活为平淡无奇”的个案,并统计这些个案的年龄和教育的平均值和标准差。 SPSS选择个案 选择个案 【数据(D)】→【选择个案】 三、缺失值填补 缺失原因分析 没有收集(NAP);拒绝回答(NA);不适用,不知道(DK) 填补方法 序列均值 临近点均值 临近点中位数 线性插值法 点处线性趋势法 动手练习 打开“Cars.sav” 文件 Mpg(每加仑汽油行驶英里)较多缺失 转换 替换缺失 四、数据校验 查找错误或不一致 数据 验证 验证数据 分析结果 校验信息 “1”无效;“0”有效 动手练习 打开“demographic.sav” 如设定18-70岁为有效值,其他为无效 看校验结果 五、 合并文件 把多个文件合并为一个 如:一个公司的30家分公司,年终把数据合并;一个学生毕业前把8个学期成绩汇总 从合并来分,有两类 合并变量(添加变量) 合并个案 (添加个案) 添加个案(纵向合并) 打开数据Sales1.sav和Sales2.sav 选择Sales1.sav为基础文件 数据 合并文件 添加个案 添加变量(横向合并) 打开数据World60.sav和World90.sav 选择World90.sav为基础文件 数据 合并文件 添加变量 六、数据拆分 把不同类别拆分出来 前面的“选择个案”可以拆分 这里还可以用 数据 拆分文件 打开GSS04Intro.sav * * 输入选择个案的条件

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

我是一名原创力文库的爱好者!从事自由职业!

1亿VIP精品文档

相关文档