基干实证探析数据挖掘在家庭经济困难学生精准识别过程中应用探索.doc

基干实证探析数据挖掘在家庭经济困难学生精准识别过程中应用探索.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基干实证探析数据挖掘在家庭经济困难学生精准识别过程中应用探索

基于实证分析的数据挖掘在家庭经济困难学生精准识别过程中的应用探索   摘 要:通过建立基于家庭经济困难学生数据库的数据挖掘模型对困难生精准识别进行实证角度的探索,通过数据预处理后的数据选取决策树模型进行学生识别,评估模型显示,该数据挖掘模型预测具有较高的准确率,能够从一定程度上解决家庭经济困难学生认定过程中存在的主观性、片面性等问题 关键词:数据挖掘模型;家庭经济困难学生;精准识别;决策树 数据挖掘(Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD),是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的过程[1]。数据挖掘在很多领域都是一个很时髦的词,尤其是在如银行、电信、保险、交通、零售等商业领域。但是,数据挖掘在教育领域的应用尚处于理论探索阶段,其他研究中已经证明,数据挖掘在高校家庭经济困难学生精准识别的过程中具有理论上的可行性,本文通过建立基于家庭经济困难学生数据库的数据挖掘模型对困难生精准识别进行实证角度的探索,以期能够解决家庭经济困难学生认定过程中存在的主观性、片面性等问题 本研究通过运用数据挖掘技术,对家庭经济困难学生的数据进行量化分析、建模评价、以及结果分析。本文的主要设计思路为:针对学生的一系列评价家庭经济困难程度的指标划分学生困难等级,有利于简化家庭经济困难学生的认定程序,降低错误率。一个完整的数据挖掘过程主要包括数据准备、建立模型进行挖掘、模型的评价与修正三个阶段。借助数据库中已有学生信息,使用数据挖掘方法开发出困难等级评分模型从已有数据中分析归纳出困难生识别的规则和标准。然后,将这些规则或标准应用于困难生认定过程。本文所采用的数据挖掘软件为SPSS Clementine 12.0。该软件操作简单、无需编程、界面人性化,是一款十分适用的数据挖掘软件。图1展示了基于数据挖掘的困难生精准识别所构建的模型 一、数据预处理 数据预处理主要包括原始数据整理与数据分割两部分 本研究采用原始数据来自2015年度某高校某学院家庭经济困难学生数据库,该数据库共有数据496条。从学生《家庭情况调查表》以及家庭经济困难申请表中原因陈述结果可以看到,涉及到学生的特征指标包括户籍性质(HJ)(农村、城镇),户口所在地(HK)(东部、西部、中部),家庭人口数(RK),是否孤残(GC),是否单亲(DQ),家庭人均年收入(SR),家庭健康情况(JK),家庭负债情况(FJ)等一系列指标。数据经整理后能够满足Clementine对数据挖掘的要求 数据分割的目的主要是为了验证数据挖掘模型,根据一般原则,数据分割的比例配比为训练集(40%),测试集(30%),验证集(30%)。分割方法为简单随机抽样,利用Clementine 12.0的Partition节点完成。分割后的三个数据集用新增变量Partition的取值标识,但仍合并在同一个数据文件里 二、建立模型 家庭经济困难的等级与困难学生本身的特性是紧密相关的,经由这些特性能够细分学生困难等级,常用的特征识别方法是分类树。分类树着眼于从一组无次序、无规则的事例中推理出分类树表示的分类规则。现在比较常见的算法是基于信息论的方法的决策树。本文选取决策树模型来分析处于不同困难等级的学生所共有的一些个人信息,并对困难生认定提出相应的一些建议 符合以下几条规则之一的,可以认定为家庭经济条件特殊困难:(1)人均年收入少于2250元,家庭人口少于3.5;(2)家庭人口多于3.5,人均年收入少于950元;(3)人均年收入高于2250元,家中有负债,人口数少于5人,家庭存在不健康因素 符合以下几条规则之一的,可以认定为家庭经济条件困难:(1)人均年收入大于1250元,家中有负债,农村户口;(2)人均年收入大于1250元,户籍所在地为中西部地区;(3)人均年收入大于1250,家中人口多于5人,且有负债;(4)收入多于2250,人口数多于6人且家中不健康因素的 符合以下几条规则之一的,可以认定为家庭经济条件一般困难:(1)收入多于1250,家住农村,无负债;(2)收入在2250到2450之间,家住中东部,人口少于6人;(3)收入大于2450元 三、模型评估 完成模型的制定以后,下一步就是对模型进行评估,检验其预测能力的强弱。一般来说,模型的检验有两种方式:样本内检验和样本外检验。在Clementine中,模型评估主要采用图形展示,例如Gain图、Lift图等。另外,也常用分类矩阵来比较预测结果与实际结果的吻合程度,分析结果如图2 首先,从收益图可以明显的看出,利用决策树得到预测模型准确率非常高,几乎与理想模型重合,而基于客户特征的细分变量的准确率也比较高 为

文档评论(0)

linsspace + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档