clmtime大作业解读.docx

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
clmtime大作业解读

Spss modeler大作业 题 目:ibm spss modeler 学 生:赵晓娟 班 级:13统计A1 指导教师:詹晓琳  日 期: 2015 年1月 5日 对就业形式的调查研究 一.研究背景: 近几年,中国高等教育规模不断扩大,为社会培养了大量的高层次人才,促进社会的飞速发展,但是,随之而来的就是面对竞争激烈的人才争夺市场,就业形势日趋激烈。本次调查就是针对大学生的就业问题运用数据挖掘的方式展开讨论。 二.研究数据及范围 本研究以统计学原理为基础,通过应届毕业生进行问卷调查,采用数据挖掘技术以及描述性的统计方法,对大学生的就业问题进行研究,分析什么影响大学生的就业情况? 本次数据是在数据网站搜集到的spss类型的数据,共有21个变量,1236份问卷,没有系统缺失值。其中10个定距变量,10个定类变量和1个定序变量 二.研究目的: 1.在校期间那些因素对就业有显著影响。 2.对于数据建模运用不同方法比较对其问题研究探究那个模型最好 三.研究方法 运用数据挖掘clmtime描述性分析,推断性分析,和建模分析 四.分析过程 1.数据导入与异常值和离群值的处理 我们可以看见数据存在离群值和异常值,对于离群值,我采用coerce,即用距离离群值最近的正常值代替它们。对于极端值采用discard extremes,即剔除极端值。 2.基本描述分析 (本图利用clm得出具体数据然后用excel做得。) 调查者男女的比例以及男女在是否就业上所占的比例。我们可以看到男生共534人,其中就业人数占男生总人数的81.4%,而女生共702人,其中女生就业人数占女生总人数的84.7%。所以女生在就业方面要比男生一定程度好些。 我们可以看到对就业评价方面,大部分人是认为就业形势一般,而认为就业形势很好的5占人数的人少的比例,但是认为就业形势很好的人都就业了。 我们可以看出来大部分人都是考取了一定证书的,但是有些证书大致看起来并没有对就业问题有影响。 3.数据建模及分析 因为我们的自变量有21个,所以首先对数据做重要性处理,找出针对因变量最有重要及中度重要的因素。 我们可以看到对就业问题重要的和一般重要的以及因为类别太大没有进入分析的都是要将来进入建模的。 生成一个过滤节点,将上面不重要的自动过滤掉。方便模型建立。 建立分区节点,将数据分为训练样本和检验样本,我将70%的数据作为训练样本和30%的检验样本。这样为了更好地可以看到建立的模型好不好? (1)二项Log回归 建立log模型节点,选用前进法,是输入变量逐个进入回归方程的过程。 我们可以看到运用log做出的模型的正确率为82.197%。 设置哑变量。 这张图是错判矩阵,因为我们研究的是什么因素可以影响就业,所以是就业被判断为是的在这几个Step里都较好。 这张图是log的每一步的回归方程显著性检验的的总体情况,以及似然比卡方的观测值。我们可以看到p值都通过了检验,认为回归系数不同时为0,解释变量的全体与logit P之间的线性关系显著,模型均合理。 这张图是显示了模型拟合度方面的指标,可以看到最小的-2log Likelihood=974.393,而Nagelkerke R2也接近0,所以我们可以看出来模型的拟合程度并不高。 这张图是显示了模型各个回归系数检验方面的指标,因为模型选用的是前进法,所以变量是逐个进入的,所以我选模型5为我的最终模型方程。可以看到通过p值的有外语级别证书(1),希望的工作单位性质(1)(2)(5)以及期望月收入和先就业在择业是否同意(1)。这几个与Logit P的线性关系是显著地。所以我们可以建立回归模型 Logit P=-0.124-0.538外语级别证书(1)+0.776希望的工作单位性质(1)+0.628希望的工作单位性质(2)+1.075希望的工作单位性质(5)+0.000期望月收入-0.630先就业在择业是否同意(1) 在模型的检验方面,我们可以看到训练样本中正确率为82.2%,检验样本的正确率为84.37%。整体来说模型建立的较好。 (2)神经网络 数据的基本处理和log的一样,就不加以说明。 我选在中等重要与最重要之间时,可以看到外语证书,先就业在择业是否同意以及沟通能力与专业是否热门这几个方面与是否就业有较为显著的关系。 模型的整体错判率为82.7%。 可以看到与是否就业最相关的就是期望月收入,其次是沟通能力,专业是否热门,先就业在择业是否同意,以及外语证书。 在模型的检验方面,我们可以看到训练样本中正确率为82.66%,检验样本的正确率为84.64%。整体来说模型建立的较好。 五.结论与建议 1.影响是否就业是与有外语

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档