4 Clementine变量的管理.pptVIP

  1. 1、本文档共104页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
4Clementine变量的管理ppt课件

第3章 Clementine变量的管理 第3章 Clementine变量的管理 数据通常以变量为列、样本为行的二维表形式组织 数据的基本管理包括变量管理和样本管理两大方面 变量管理以变量为基本单位,实现 变量说明 变量值的重新计算 变量类别值的调整 生成新变量 变量值的离散化处理 生成样本集分割变量 第3章 Clementine变量的管理 变量管理的节点工具放置在节点工具箱的字段选项卡中,具体节点如图所示 3.1 变量说明 变量说明 对变量取值的有效性进行限定、检查和修正 指明各个变量在未来建模中的角色 变量说明是确保高质量数据的有效手段,也是明确变量建模地位的重要途径 通过字段选项卡中的类型节点实现 以学生参加某次社会公益活动的数据Students.xls为例讲解变量说明的具体操作方法 3.1 变量说明 首先建立Excel节点读入Students.xls,浏览 3.1 变量说明 浏览数据: 家庭人均年收入变量中有部分样本取$null$,为系统缺失值;还有一由于不明原因而明显错误的数据999999。 应对它们进行恰当修正 是否无偿献血变量值填写不规范,规范值应为Yes和No,但出现了1(表示Yes)和0(表示No) 应将1替换为Yes,0替换为No 3.1 变量说明 为处理上述问题,选择字段选项卡中的类型节点并将其连接到数据流的相应位置上,进行参数设置 下面从三个方面进行说明 缺失值 变量取值有效性检查和修正 变量方向 3.1.1 取值范围和缺失值的说明 缺失值通常包括两类: 系统缺失值:用$null$表示,还包括空格或空白 用户缺失值:主要指取值明显不合理的数据 本例中 添加变量值标签以规范是否无偿献血的取值,指定用户缺失值 说明家庭人均年收入的合理取值范围 3.1.1 取值范围和缺失值的说明 选择是否无偿献血和家庭人均年收入变量,鼠标选择图中的缺失列,出现三个选项 开(*):允许变量取用户缺失值,不进行修正(用户缺失值并不等同于正常值) 关:不允许变量取用户缺失值 指定:定义变量值取值范围、用户缺失值等信息 3.1.1 取值范围和缺失值的说明 类型:显示当前变量的类型和存储类型 值:指定决定变量取值范围的方法 读取数据:取决于所读的外部数据 传递:忽略所读的外部数据 指定值和标签:人为指定变量取值和变量值标签。根据当前变量的实际意义,指定其合理的取值,并在标签框中输入关于变量值含义的简短说明文字。 3.1.1 取值范围和缺失值的说明 为指示是否无偿献血的合理取值,分别在Yes和No行对应的Labels列中输入变量值标签“无偿献血”、“未无偿献血”: 3.1.1 取值范围和缺失值的说明 家庭人均年收入的取值范围不能直接由外部数据决定,否则Clementine将视999999(用户缺失值)为正常值。输入范围为7333.0至74460.0。 3.1.1 取值范围和缺失值的说明 检查选项:指定对变量值的修正方法 定义空白选项:选中该选项表示视下列值为空白 缺失值框:在此处输入的离散值都当空白处理 范围框:在此处输入的连续区间中的值都当作空白处理 无效值和空白:$null$或空格都当作空白处理 3.1.1 取值范围和缺失值的说明 注意:Clementine不对空白进行替补处理,因此定义空白的目的仅是将那些无需修正和替代的用户缺失值与正常值区分开,以便于后续建模。 当选择了定义空白并返回窗口后,相应变量的缺失列上将自动显示,表示允许相应变量取用户缺失值 3.1.1 取值范围和缺失值的说明 本例中 无偿献血中的1和0虽然是不合理取值,但自动修正是无意义的,因此在定义空白中说明 家庭人均年收入中的999999和$null$值需要修正和替补,所以不应在定义空白中说明,仅视999999为超出取值范围的不合理取值。 返回类型节点窗口后,无偿献血的缺失列上显示*,家庭人均年收入的缺失列上没有显示。 3.1.2 变量取值有效性检查和修正 指定取值范围后,通常还需利用类型节点中的检查列,对超范围的不合理数据或系统缺失值进行修正 3.1.2 变量取值有效性检查和修正 对家庭人均年收入中的999999和$null$值进行修正和替补 通常的修正处理方式如下 无:不进行修正 无效:用系统缺失值$null$替代 强制:用一指定值替代。 系统默认,Flag型变量用False对应的值替代;Set型变量用第一个变量值替代;数值型变量,大于上限的用上限替代,小于下限的用下限替代,其余值用(最大值+最小值)/2替代。 3.1.2 变量取值有效性检查和修正 通常的修正处理方式如下 丢弃:剔除相应样本数据 警告:给出警告信息 中止:终止流执行 3.1.2 变量取值有效性检查和修正 本例中对家庭人均年收入中的系统缺失值$null$和99

文档评论(0)

118books + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档