第4章数据预处理解说.doc

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据预处理 数据文件建立好之后,还需要对数据进行必要的预处理,因为不同的统计分析方法对数据结构的要求不同。SPSS提供了强大的数据预处理能力——主菜单【转换】,可从变量和个案角度对数据进行全面的处理。 变量的转换与运算 可视离散化 离散化(Binning)的意思是把两个或多个连续值放在一个类里面,对所有连续值进行分组。可视离散化指的是给一个度量变量创建一个它的分类变量(creating a categorical variable from a scale variable)。具体操作是: 打开Samples文件中的“demo.sav”数据文件,给度量变量income创建一个它的分类变量inccat2,inccat2序号变量分组为4类—低于$25,$25—$49,$50—$74,$75以上。 单击【转换】→【可视离散化】,出现“可视化封装”对话框,选择要离散的变量,单击继续。 设置“生成分割点”,分类数=分割点数量+1 点击“生成标签”,表格如图所示 数据视图窗口的最后一列为income的分类变量inccat2。 根据已存在的变量建立新变量(变量的计算) 有时候,一个或两个连续变量都不符合正态分布,但通过它或他们计算(转换)出来的新的变量可能就接近正态分布。计算新变量(computing new variables)的具体操作是: 打开数据文件“demo.sav”,文件中有受试者“现在的年龄”和“已参加工作的年数”这两个变量,但却没有他们“开始工作的年龄”这个变量,以简单地计算现存的两个变量的差,把这两变量的差值作为一个新的变量为例。 营业收入-利润总额,营运成本 单击【转换】→【计算变量】,在打开的“计算变量”对话框中设定“目标变量”,在“目标变量”对话框中输入目标变量的名称,单击“类型与标签”按钮,在弹出的“计算变量:类型和标签”对话框中设置新生成变量的变量类型与标签。 设置新变量的生成表达式。从源变量列表中选择生成新变量所依据的变量,单击按钮将选中的变量选入“数字表达式”列表中参与模型表达式的构建;如果要用公式计算新变量,则先从“函数组”列表中选择相应的函数类型,“函数与特殊变量”列表中会显示出具体的函数类型与特殊变量,用户可以选择相应的函数并单击按钮将其选入“数字表达式”列表中参与表达式的构建,再选择生成新变量的各变量。可以利用“数字表达式”下方的键盘进行数字与符号的输入。 设置个案选择条件。单击“如果”按钮,打开“计算变量:If个案”对话框,如选择“包括全部个案”,则表示变量中的全部个案均参与计算;选择“如果个案满足条件则包括”单选按钮,则激活个案选择条件设置部分,该部分与新变量的生成表达式的设置方法基本相同,在此不再赘述。 在数据视图窗口出现新变量jobstart 产生计数变量 有时,我们需要统计满足某一个条件的个案(观测)的个数,计数变量的功能就是对变量中满足一定条件的个案的个数进行统计,并保存计数结果。具体操作是: 打开数据文件,单击【转换】→【对个案内的值计数】,打开“计算个案内的值出现次数”对话框, 选择要进行计数的变量和设置计数变量。在“源变量”列表中选择要进行计数的变量,单击按钮将其选入“数字变量”列表中。对话框中“目标变量”输入框用于输入产生的计数变量的名称;“目标标签”输入框用于输入产生的计数变量的变量标签。 定义计数对象。单击“定义值”按钮,弹出“统计个案内的值:要统计的值”对话框,定义计数对象。用户可以在“值”选项组中选择计数对象(通过设置变量要满足的条件),单击“添加”按钮将其选入右边的“要统计的值”列表中。 值:选择该项系统将以用户在下面输入框中输入的值作为计数对象。 系统缺失:将把系统指定缺失值作为计数对象。 系统或用户缺失:选择该项将把系统指定缺失值或用户指定缺失值作为计数对象。 范围:选择该项后系统将把用户在下面输入框中输入的数值范围内的观测量数作为计数对象。 范围,从最低到值:选择该项系统将把负无穷到用户在下面输入框中输入的数值范围内的观测量数作为计数对象。 范围,从值到最高:将把用户在下面输入框中输入的数值到正无穷范围内的观测量数作为计数对象。 设置个案选择条件。单击“如果”按钮,打开“计算变量:If个案”对话框,如选择“包括全部个案”,则表示变量中的全部个案均参与计算;选择“如果个案满足条件则包括”单选按钮,则激活个案选择条件设置部分,该部分与新变量的生成表达式的设置方法基本相同,在此不再赘述。 单击“确定”后,在数据视图窗口可看到“计数变量” 数据的重新编码 对于数值型变量,用户在数据编辑和整理过程中可以对某些变量的一定取值范围内的个案(观测量)进行重新赋值。变量的重新赋值有两种

文档评论(0)

4477769 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档