网站大量收购闲置独家精品文档,联系QQ:2885784924

数据挖掘课程的设计.doc

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
暨南大学数据挖掘课程设计cwl PAGE 15 本科课程设计及实验 期末成绩评估系统的数据仓库和数据挖掘设计 课 程 名 称: 数据挖掘 课 程 编 号: 学 生 姓 名: cwl 学 号: 2008052251 学 院: 信息科学技术学院 系: 计算机科学系 专 业: 软件工程 指 导 教 师: lb 教 师 单 位: 信息学院计算机系 开 课 时 间: 2010 ~ 2011 学年度第 二 学期 2011年 第1章 概述 1.1应用背景和问题的提出 在大学生活中,我们大学生在某种程度上还是比较重视自己的课程成绩的。而有一个期末最终成绩的评估系统,无疑对同学们而言是很有用的。在这个系统中,只需输入你估计的平时成绩以及表现和期末考试的得分,就可以预测出最终的成绩。而这个课程成绩的组成以及得出是怎么样的呢。这个最终的得分是受到什么影响呢?本论文就以上问题进行了探讨和挖掘。 1.2设计内容的介绍 本课程设计主要是探讨和研究在老师给定成绩时考虑的因素,以及这些因素所占的比例。数据仓库为一份记录着600个同学的得分情况的数据,数据挖掘则采用决策树探究出影响结婚年龄的因素。 第2章 数据仓库设计 2.1概念模型设计 数据仓库里面有一个实体,也就是成绩score。成绩的决定因素有performance也就平时表现情况,即根据其在课堂上的活跃程度以及认真听课的情况来给的分,还有averscore就是同学平时的作业得分以及平时测试或者期中测试的平均成绩,以及期末考试的成绩lasttest。 score score lasttest performance averscore 2.2逻辑模型设计 本数据仓库只有一个表,逻辑模型设计如下: 2.3物理模型设计 在数据仓库的物理设计中,主要解决数据的存储结构、数据的索引策略、数据的存储策略、存储分配优化等问题。物理设计的主要目的有两个,一是提高性能,二是更好地管理存储的数据。访问的频率、数据容量、选择的RDBMS支持的特性和存储介质的配置都会影响物理设计的最终结果。在本数据挖掘中,数据的索引策略采取的并不是位图索引而是按列索引 2.4 OLAP模型设计 在本设计中由于案例考虑的并不复杂,所以OLAP模型设计也就比较的简单。 下面的数据是保存在Excel中的。大概的模型设计也就如下图所示。 2.5 OLAP前端展示设计 第3章 数据挖掘分析 3.1 期末成绩评估系统应用挖掘概述 在本系统中,数据仓库采用一个二维表来存储和表示同学们的平时成绩,平时表现得分,以及期末成绩等属性。数据挖掘则采用关联分析来将二维表中的实例分开,并探究这些数据所蕴含的规律。 3.2数据挖掘实验 3.2.1实验环境 Windows XP Microsoft SQL Server 2008 Microsoft Visual Studio 2008 Microsoft Office 2003 Excel Access 3.2.2数据准备及预处理 首先选择数据源,以下几个截图是在做实验时的几个步骤。 3.2.3 实验内容 (输入数据集,选择算法,输出结果,比较分析) (1)建立一个Analysis Services Project的项目,在数据源中输入数据集: 说明: 以上实验室在实验室做的,由于时间不够,回到宿舍自己安装了中文版的SQL SERVER工具,并完成接下来的实验步骤。 3.2.4 算法选择 分类的任务是通过分析由已知类别数据对象组成的训练数据集,建立描述并区分数据对象类别的分类函数或分类模型(也常常称作分类器)。 分类算法有多种,例如,决策树分类算法、神经网络分类算法、贝叶斯分类算法等。这里需要用的是决策树分类算法。 在本挖掘中选择是关联分析,分析过程和结果如以下图所示: 下面是挖掘模型: 项集: 关联规则: 提升图: 分类矩阵: 依赖关系网络图: 后来我用回归预测法,得到了一个散点图,说明预测值和实际值是有一定的关联的: 通过以上的分析,我们得出一个结论,就是期末成绩在最终得分中所占的比例最大,平时成绩和平时表现的权重差不多,在这个结论中,期末考试的成绩的重要性,不言而喻,增加期末考试的成绩,最能提高最终成绩,平时成绩和表现的得分也很重要,但相对权重没有期末成绩大。一个分数高的学生,他的所有成绩都应该是很高的。 参考文献: [1] Jamie MacLennan,ZhaoHui Ta

文档评论(0)

东方888 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档