- 1、本文档共12页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘在实际生活中应用.doc
数据挖掘在学生学习成绩中的应用
小组成员:
说明
由于我们小组分析的是上一学年我们计商两个班级的学习成绩与奖学金获得情况,因此涉及到了学生的一些个人信息。我们小组全体成员一致承诺:
我们获得的数据(通过辅导员老师获得)仅用于本门课程的数据分析所用,对大家的姓名、学号、成绩等敏感信息已做过处理,保证大家的隐私不被泄露。希望各位能够予以理解!
选题背景
近年来,随着高校的不断扩招,学生人数大幅增加,给高校学生管理、教学工作带来了严峻考验。传统的教学管理手段已经不能满足高校的快速发展。现阶段许多高校对学生的成绩、学生的信息基本还停留在传统的、简单的数据库管理和查询阶段,不能发挥其应有的作用。就以学生成绩为例,教师对学生的成绩知识做一个简单的优、良、中、差的考核,并不考虑影响学生学习成绩的因素,有些可能是主观因素,有些可能是客观因素。如果某些客观因素比如学习环境、师资力量等不能很好地解决,将严重影响学生的学习成绩,制约学生的发展,而且严重阻碍了学校教育教学发展的脚步。因此,通过数据挖掘等技术理性的分析学生成绩等关键信息,提高教学质量与水平,是广大师生最关心的问题之一。
数据挖掘
数据挖掘又称为数据库中的知识发现(KDD),是从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。数据挖掘的任务是从大量的数据中发现对决策有用的知识,发现数据特性以及数据之间的关系。
利用贝叶斯分类器分析奖学金概率问题
奖学金作为一种激励机制,在人才培养过程中发挥非常重要的导向作用,其目的是为了引导和鼓励学生刻苦学习、奋发向上,促进学生全面素质提高和个性健康发展。贝叶斯分类器的分类原理贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类
表1 A1班奖学金获得情况
表2 A2班奖学金获得情况
已知A1班总人数39,由表1可看出获得奖学金人数为22,获得奖学金的概率约为0.56
已知A2班总人数36,由表2可看出获得奖学金人数16,获得奖学金的概率约为0.44
A1、A2两个班级总人数为75,奖学金获得者38人,其中A1班占奖学金获得者的比例为58%,A2班占奖学金获得者总人数的比例为42%。.
根据以上数据可以得到奖学金获得概率及获奖人数占两个班级获奖总人数的比例,如表3所示:
班级 奖学金概率 获奖人数占两个班级获奖总人数的比例 10计商A1 0.56 58% 10计商A2 0.44 42%
表3 奖学金获得概率及所占比例
通过以上数据,我们解决以下两个问题:
随机从两个班级中选出一个学生是奖学金获得者的概率是多少?
随机从两个班级中选出一个学生,已知该学生是奖学金获得者,则此学生来自哪个班级的可能性最大?
假设X表示“选出的一个学生是奖学金获得者”,Y=i,(i=10计商A1,10计商A2)表示“选出的学生是来自班级i”,则问题就转换为求解p(X)与p(Y=i|X)。
由表3得到后验概率为:
P(X|Y=10计商A1)=0.56,P(X|Y=10计商A2)=0.44
先验概率为:
P(Y=10计商A1)=58%,P(Y=10计商A2)=42%
由全概率计算公式得出:
P(X)=P(X|Y=10计商A1)P(Y=10计商A1)+P(X|Y=10计商A2)P(Y=10计商A2)
=0.56*0.58+0.44*0.42=0.3248+0.1848=0.5096
因此,随机从两个班级中选出一个学生是奖学金获得者的概率是0.5096。
下面我们求解p(Y=i|X),根据贝叶斯定理可得:
①
由公式①可以计算出该获奖学生来自10计商A1班级的概率为:
同理可得,该获奖学生来自10计商A2班级的概率为:
通过以上分析计算不难得出结论:
随机从两个班级中选出一个学生,已知该学生是奖学金获得者,则此学生来自10计商A1班级的可能性最大。
聚类分析中的k-means算法在学生奖学金等级划分中的应用
k-means算法是常见的基于划分的聚类方法,其中相异度基于对象与类中心(簇中心)的距离计算,与簇中心距离最近的对象可以划分为一个簇。此算法的目标是每个对象与簇中心距离的平方和最小。
根据对奖学金获得者学生的学习情况分析可知:获奖等级与该学生平时去图书馆的次数、平时上课迟到次数、上课座位前后、参加竞赛次数、宿舍评分等因素有关。比如,图书馆能为同学们提供安静的、舒适的学习环境,同时能够提高学生学习的自觉性,因此常去图书馆的同学学习成绩一般都比很少去图书馆学生学习成绩要好,相应的拿到奖学金的概率越大,拿到奖学金的等级也越高。其
文档评论(0)