讲座3-数据预处理分解.ppt

下载文档 降价啦

8
0
约1.59千字
约 22页
2017-03-22 发布于湖北
举报
版权申诉
保障服务

讲座3-数据预处理分解.ppt

1、本文档共22页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第3讲数据预处理主要在数据和转换2个菜单进行数据（Data) 对数据加工，如对数据分组、合并、加权、筛选。转换（Transform) 对变量操作，如四则运算、数据重新编码、计算变量等。主要内容连续变量的可视离散化选择符合条件的数据缺失值填补数据校验数据文件合并数据拆分一、连续变量的离散化为什么要离散化可视离散化（可视化分段）（Visual Binning）用于为定量变量（或尺度变量）创建分类变量（或定性变量），从而实现连续变量的离散化。在统计分析中，有时候需要了解总体的大致分布状况，而不需要了解属性的具体信息。例如，调查居民的收入水平，实际得到的是以“元”计数的具体收入值。有时候用户最关心的是处于贫困线以下的居民、中等收入的居民和高收入的居民各占多大比例。这时候，可以对定量变量年收入进行“可视离散化”，创建一个包括处于贫困线以下、中等收入和高收入三个类别的新分类变量。我们收集了居民具体的年龄数值，但我们关心的是处于各个年龄段的人群的比例。此时，可以对定量变量年龄进行“可视离散化”，创建一个包括青年、中年、老年三个类别的新分类变量。动手练习打开数据文件1991 U.S. General Social Survey.sav 在原始数据文件中，为了解各个年龄段人群的分布情况，需要对年龄变量进行可视化分段。可视离散化方法 SPSS的可视化分段提供两类分段的方法：直接输入分割点和根据条件自动生成分割点。根据条件自动生成分割点提供了三种自动生成分割点的方法：等宽间隔、基于已扫描个案的等百分位和基于已扫描个案的均值和标准差。 SPSS输入界面直接输入分割点根据条件自动生成分割点根据条件自动生成分割点等间隔-指定间隔或者分割点数量等百分比个案基于均值和标准差二、选择符合条件的数据为什么要选择数据有时候，我们仅仅需要对数据集中的一部分进行分析。例如，我们仅仅需要分析女性的工资和工作年限之间的关系… 动手练习对1991 U.S. General Social Survey.sav进行个案选择，选择条件为“女性、白种人、生活为平淡无奇”的个案，并统计这些个案的年龄和教育的平均值和标准差。 SPSS选择个案选择个案【数据（D）】→【选择个案】三、缺失值填补缺失原因分析没有收集（NAP)；拒绝回答(NA)；不适用，不知道（DK) 填补方法序列均值临近点均值临近点中位数线性插值法点处线性趋势法动手练习打开“Cars.sav” 文件 Mpg(每加仑汽油行驶英里）较多缺失转换替换缺失四、数据校验查找错误或不一致数据验证验证数据分析结果校验信息 “1”无效；“0”有效动手练习打开“demographic.sav” 如设定18-70岁为有效值，其他为无效看校验结果五、合并文件把多个文件合并为一个如：一个公司的30家分公司，年终把数据合并；一个学生毕业前把8个学期成绩汇总从合并来分，有两类合并变量（添加变量）合并个案（添加个案）添加个案（纵向合并）打开数据Sales1.sav和Sales2.sav 选择Sales1.sav为基础文件数据合并文件添加个案添加变量（横向合并）打开数据World60.sav和World90.sav 选择World90.sav为基础文件数据合并文件添加变量六、数据拆分把不同类别拆分出来前面的“选择个案”可以拆分这里还可以用数据拆分文件打开GSS04Intro.sav * * 输入选择个案的条件