网站大量收购闲置独家精品文档,联系QQ:2885784924

高职院校基于基础数据建设的数据挖掘研究.docVIP

高职院校基于基础数据建设的数据挖掘研究.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
高职院校基于基础数据建设的数据挖掘研究   【摘 要】今年,我院在新能源类专业教学资源库申报与建设中取得了非常大的成绩,近两年学生在资源库管理与学习平台的在线考试系统进行相关课程的考试以及职业能力鉴定已经得到参建联盟院校广泛认同和使用,积攒了大量的数据资源,为实施数据挖掘提供了基础。本文针对考试系统的大量数据进行数据挖掘,从而找到数据信息里的潜在规则以指导教学管理和教学决策。   【关键词】数据挖掘;关联分析;在线考试   一、数据挖掘及其技术   (一)数据挖掘   数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge Discovery in Database,KDD),是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式,它是数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。   (二)数据挖掘系统   一个完整的数据挖掘系统包括规则生成子系统和应用评估子系统两个部分。规则生成子系统主要完成根据数据仓库提供的历史数据,统计并产生相关规律,并输出相关结果;应用评估子系统可以理解为系统中的挖掘代理程序,根据生成子系统产生的规则按照一定的策略对数据进行分类预测,通过系统的任务计划对数据产生评估指标。   (三)数据挖掘过程   数据挖掘过程包括对问题的理解和提出、数据收集、数据处理、数据变换、数据挖掘、模式评估、知识表示等过程,以上的过程不是一次完成的,其中某些步骤或者全过程可能要反复进行。   (四)数据挖掘的主要功能   概念/类描述、特征化和区分:对每个类的汇总、简洁、精确的描述可以通过数据特征化、数据区分和数据比较来实现。数据特征化是指目标类数据的一般特征或特征的汇总,如一年的成绩汇总;数据区分是将目标类对象的一般特征与一个或多个对比类对象的一般性比较,如A学校和B学校的比较。   关联分析:是寻找数据库中值的相关性,揭示属性与属性值在数据集中一起出现的条件。这种关联规则可以是单维关联规则或多维关联规则。   分类与预测:利用某种数据挖掘算法的某种规则自动对海量数据进行分类,把握分析对象发展的规律,对未来的趋势做出预见。   聚类分析:聚类是根据最大化类内的相似性、最小化类间的相似性原则对海量数据进行聚类或分组,从而产生属性相近的各个类。   偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。   演变分析:可以根据数据的特征对数据的发展变化作出相应的预测与分析。主要应用于对时间序列数据的分析、序列或周期模式匹配和基于类似性的数据分析。   二、在线考试系统结构与数据分析   (一)系统结构分析   资源库管理与学习平台中在线考试系统结构采用四层应用模式,第一层为应用层(管理与学习平台),这一层主要由两部分组成,考生通过浏览器进行在线考试,管理员通过工作平台直接管理试题库及系统环境,同时对考生考试数据及考生行为进行数据提取、分析、评价等;第二层为Web层(Web Server),Web服务器接受应用层的请求与业务逻辑层的接口进行信息交换,以响应用户信息并提供用户界面;第三层为业务逻辑层用来实现业务逻辑,包括一些具体的组件模块。如:题库管理组件模块、用户考试组件模块、评卷组件模块、成绩管理组件模块等;第四层为数据层,使用SQL Server 2008数据库系统来存储待处理的各种数据,包括各种记录用户行为的数据以及Web层与业务逻辑层之间进行通讯和信息传递时所产生的数据等。   本文要在考试系统的应用层中添加具有数据挖掘功能的“成绩分析系统,用以补充成绩管理模块的功能,使之能够对考生答题记录进行数据挖掘分析。   (二)系统数据分析   考试系统中的数据量非常大,其间必然存在大量的噪声数据。究其产生原因,如在考试过程中某些考题因被考生漏答而造成数据的空缺;管理人员或教师在测试系统时会留下大量的测试记录……这些噪声数据的存在会对挖掘的结果产生很大的影响。数据记录中还包括一些冗余的数据域,这些数据域在考试系统的正常运行中是不可缺少的,但是在进行数据挖掘中却会影响挖掘的效率,并产生毫无意义的规则。另外还有很多不确定因素也会使数据库中产生大量的噪声数据。噪声数据的存在会直接影响挖掘结果的有效性,尽可能的去除这些噪声数据才能提高挖掘的效率并得到有效性更高的结果和规则。因此,在进行数据挖掘之前,有必要对数据源进行清洗和处理,最终得到干净的、有效的、符合挖掘要求的数据。   三、数据挖掘算法应用   (一)关联规则挖掘算法应用   关联分析的目的是挖掘隐藏在数据间的相互关系。对于物品与事务的关系:事务1中出现了物品A,事务2中出现了物品B,事务3中出现了

文档评论(0)

kaku + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8124126005000000

1亿VIP精品文档

相关文档