- 1、本文档共20页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于SPSS的信息类大学生成绩的数据挖掘
应用统计学课程设计报告名称基于SPSS的信息类大学生成绩的数据挖掘学 院:河南中医信息技术学院专 业:信息管理与信息系统班 级:信管一班日 期:(提交日期): 2014/6/12[摘要]数据挖掘技术是信息技术研究的热点问题之一。目前数据挖掘技术在商业、金等方面都得到了广泛的应用,而在教育领域的应用较少,随着高校招生规模的扩大,在校学生成绩分布越来越复杂,除了传统成绩分析得到的一些结论外,还有一些不易发现的信息隐含其中,因而把数据挖掘技术引入到学生成绩分析中,有利于针对性地提高教学质量。聚类分析是数据挖掘中的一个重要研究领域。它将数据对象分成为若干个簇,使得在同一个簇中的对象比较相似,而不同簇中的对象差别很大。本论文就是运用数据挖掘中的聚类分析学生成绩的,利用学生在分专业前的各主要学科的成绩构成,对数据进行选择,预处理,挖掘分析等。运用聚类算法分析学生对哪个专业的强弱选择,从而为具有不同成绩特征的同学在专业选择及分专业后如何开展学习提供一定的参考意见。[关键词] 聚类分析,学生成绩,就业,K-means,研究背景:随着我国经济的发展,网络已被应用到各个行业,人们对网络带来的高效率越来越重视,然而大量数据信息给人们带来方便的同时,也随之带来了许多新问题,大量数据资源的背后隐藏着许多重要的信息,人们希望能对其进行更深入的分析,以便更好地利用这些数据,从中找出潜在的规律。那么,如何从大量的数据中提取并发现有用信息以提供决策的依据,已成为一个新的研究课题。 高校是教学和科研的重要基地,也是培养人才的重要场所,教学管理工作当中的学生成绩分析是高校管理工作的一个重要组成部分,也是衡量高校管理水平的依据。从目前来看。各高校随着招生规模的扩大,信息量大幅度增加,学校运行着各类管理系统,存在着各类数据库,如有成绩管理,学籍管理等。这些系统积累了大量的数据,在很大程度上提高了工作的效率,但在这样的教学管理系统中,学校的管理人员、教师和学生都只能通过查看,或者简单的排序以及统计功能来获得数据表面的信息,由于缺乏信息意识和相应的技术,隐藏在这些大量数据中的信息一直没有得到充分应用。如何对这些数据进行重新分析利用,在原基础上扩充高校教学管理系统的功能,从大量数据中发现潜在规律,提高学校管理的决策性,是很多高校正在考虑的问题。因此,对学生成绩数据进行深入挖掘分析,找出影响学生学习的各种潜在的因素,将会促进学校开展更加具有针对性的个性化教育,同时营造一种新的教学管理模式,进一步促进教学管理水平的提高主要原理和思想:聚类分析就是将一组数据分组,使其具有最大的组内相似性和最小的组间相似性。简单的说就是达到不同聚类中的数据尽可能不同,而同一聚类中的数据尽可能相似,它与分类不同,分类是对于目标数据库中存在哪些类这一信息是知道的,所要做的就是将每一条记录分别属于哪一类标记出来;而聚类是在预先不知道目标数据库到底有多少类的情况下,希望将所有的记录组成不同的簇或者说“聚类”,并且使得在这种分类情况下,以某种度量为标准的相似性,在同一聚类之间最小化,而在不同聚类之间最大化。事实上,聚类算法中很多算法的相似性都基于距离而且由于现实数据库中数据类型的多样性,关于如何度量两个含有非数值型字段的记录之间的距离的讨论有很多,并提出了相应的算法。聚类分析的算法可以分为以下几类:划分方法、层次方法等。2.1聚类分析原理方法:在数据挖掘技术中,聚类分析主要有以下几种方法。 (1)划分法(Partitioning Methods) 划分法给定一个有N个元组或者记录的数据集,构造K个分组,每一个分组就代表一个聚簇,K N。而且这K个分组满足下列条件:每个组至少包括一个对象,每个对象必须属于且只属于一个组。 对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一组中的记录越近越好,而不同分组中的记录越远越好。使用这个基本思想的算法有:K均值算法、K中心点算法、CLARANS算法。K均值算法一般只能在簇的平均值被定义的情况下才能被使用,这对于涉及有分类属性的数据的应用可能会显得不适用,该方法不易发现非凸面形状的簇和大小差别很大的簇;K中心点算法在中心点的计算过程中需要反复迭代计算,其计算量很大,这对于对象及划分数的值较大时,其计算代价相当高。(2)层次法(Hierarchical Methods) 层次法就是把数据库分成多个层次,然后对不同层次的数据采用划分聚类。输出的是一棵层次化的分类树,层次的方法可以分为凝聚的和分裂的。凝聚的方法也称为自底向上的方法,一开始将每个对象作为单独的一个组,然后相继地合并相近的对象或组,直到所有的组合并为一个(层次的最上层),或者达到一个终止条件。分裂的方法,也称为自顶向下的方
您可能关注的文档
- 发心第二章.doc
- KYN28C型手车开关检修平台的改造.PDF
- 双管喉罩用于小儿外科短小手术的效果观察(修改稿).doc
- 反比例函数和相似三角形综合检测.doc
- 发电厂各专业通用试验名称及标准编号.doc
- 县级以上类.doc
- 反比例函数圆相似三角函数初步概率初步.docx
- 变压器合闸问题的说明.doc
- 变电检修中级工试题及答案4.docx
- 变电试验类安规考试题(B).doc
- 浙江省杭州市西湖区三墩中学2023—2024学年上学期期中考试八年级数学试卷.docx
- 江西省南昌市雷式学校2024-2025学年八年级上学期第一次月考物理试卷.docx
- 山西省临汾市部分学校2024-2025学年八年级上学期阶段练习道德与法治试题(一).docx
- 山东省聊城市高唐县2023-2024学年五年级上学期期中英语试题.docx
- 期中模拟测试卷- 2024-2025学年统编版道德与法治七年级上册.docx
- 期中测试卷(1~4单元)(试题)-2024-2025学年五年级上册数学人教版.docx
- 期中综合测试卷(1-4单元) (试题)-2024-2025学年三年级上册数学人教版.docx
- 山东省潍坊市文昌中学2024-2025学年七年级上学期10月月考道德与法治试题.docx
- 广西河池市2024-2025学年高二上学期月考地理试题.docx
- 河北省邢台市经开区思源教育集团2024-2025学年七年级上学期(9月份)月考英语试卷.docx
最近下载
- 2024年新九年级语文暑假提升讲义-名著导读(统编版)(解析版).pdf VIP
- Unit3ReadingandThinking课件- 高中英语人教版(2019)必修第一册.pptx VIP
- 幼儿园大班语言教案《手捧空花盆的孩子》绘本故事PPT课件教学反思【幼儿教案】.doc
- 青春期学生正确恋爱观主题班会——关爱女生讲座 防早恋 防性侵 主题教育PPT.pptx VIP
- CCF 全国青少年信息学奥林匹克联赛 NOIP 2022.pdf
- 市场营销题库及答案.pdf VIP
- 初中班级管理《班级管理交流》课件.ppt VIP
- 《整式的加减》单元作业设计.pdf VIP
- 违章行为调查报告书.docx
- GB∕T 33106-2016 工业用磷酸三乙酯国家标准.pdf
文档评论(0)