基于ID3算法在专业方向指导中应用.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于ID3算法在专业方向指导中应用

基于ID3算法在专业方向指导中应用   【摘要】文章利用学院教务管理软件收集了大量的学生数据信息,采用数据挖掘技术中的ID3算法将这些信息转换成知识,指导教学研究,并辅助学生选择适合自己的专业方向 【关键词】数据挖掘;决策树;ID3算法 一、前言 本研究采用数据挖掘分类技术,从教务管理系统存储的数据中发现有价值的信息,对“学生大一期间各门专业基础课”及相关信息的数据资源进行挖掘以获得辅助决策,分析基础课成绩和学生个人兴趣爱好之间的潜在关系,帮助管理者通过对学生学习成绩的分析和研究,了解和掌握学生的学习情况、需求、能力等,及时调整教学计划,对学生专业方向选择做出预测性的指导 二、算法及实现 ID3算法是由Quinlan于1986年提出的一种基于信息炳的决策树学习算法。他把C.E.Shannon的信息论引入到了决策树算法中,把信息熵作为选择测试属性的标准,对训练样本集进行分类,并构造决策树来预测如何由测试属性对整个样本空间进行划分 (一)数据的收集和整理 本研究利用ID3算法以华南女子学院服装专业学生的大一期间的成绩为挖掘数据源,根据学生各科的学习成绩信息,剔除了成绩表中与专业发展方向无显著相关性的属性如体育等课程属性,选择7门具有代表性的专业基础课作为基础数据进行处理 其次,对训练表中的每一列成绩属性的值进行离散化处理。我们在进行数据预处理工作的时候,将成绩分成三个部分,用A类表示[80,100]之间的分数,用B类表示[70,79]之间的分数,用C类表示[0,69]之间的分数 除了学习成绩之外,我们还需要考虑影响学生专业方向选择的其他因素。服装系的专业方向具体划分为三个方面: 制板与工艺方向、造型设计方向、市场营销方向 学生在大一修完专业基础课后,自行选择专业方向。为了更好地了解学生选择专业方向的动机以及完成阶段性学习以及大学二年级工学结合的专业实践后对自己所选方向的满意度,我们设计了问卷调查:①学生的个人兴趣:A、手工制作 ;B 、创意设计 ;C、人际交往;②选择专业方向时是否按兴趣来选择:A、是;B、不确定;C、否; ③ 经过一年的专业学习,觉得现在的专业方向是否合适自己:A、是;B、不确定;C、否(觉得自己更合适什么方向) 经过上述工作之后,整个表就只包含了影响专业发展方向的关键因素的属性。然后再对数据进行数据清理工作 在学生调查信息表中我们看到,有一些我们感兴趣的属性缺少属性值。这样的记录,我们予以删除。在?W生成绩表中,有些学生缺考、作弊或退学。这样他们的成绩也是无效的数据,因为无法根据他们的成绩得出分类结果,所以我们进行了删除。经过数据清理后,总记录数为186条 通过数据收集、数据整理之后,我们实际可以使用的数据记录为182条。由于在系统实现过程中我们还需要预留一部分数据进行数据分析准确度测试,因此,在放入训练数据集进行决策树模型生成训练的实际数据记录为146条。使用决策树ID3方法对于越大的数据库使用效果越好。由于本次数据挖掘使用的挖掘库中的数据记录存在有限性,使得对ID3方法的使用效果产生了影响 (二)利用ID3算法构造学生成绩分析决策树 1.信息增益的计算 先我们先利用公式计算机出信息熵,参加数据挖掘的记录有146条。经过两年的专业学习后,认为自己更适合学习制板与工艺方向的有58人,认为自己更适合学习造型设计方向的有48人,觉得自己更适合市场营销方向的有32人,不确定方向的8人 H(S)=- =-(58/146)Log2(58/146)-(32/146)Log2(32/146)-(48/146)Log2 (48/146)-(8/146)Log2 (8/146)=1.7663 下面计算信息增益值 利用公式:信息增益值 I(S/A) =H(S)-H(S/A) 其中H(S/A)=-得 经过整理后,参加数据挖掘的属性有9个,根据公式计算起信息增益为: Gain(S,基础工艺)=H(S)-H(基础工艺)=0.0646比特 Gain(S,成衣工艺)=H(S))-H(成衣工艺)=0.1356比特 Gain(S,服装结构设计原理)=H(S)-H(服装结构设计原理)=0.0932比特 Gain(S,服装设计基础)=H(S)-H(服装设计基础)=0.1696比特 Gain(S,款式效果图)=H(S)-H(款式效果图)=0.1696比特 Gain(S,款式设计)=H(S))-H(款式设计)=0.3512比特 Gain(S,市场营销)=H(S)-H(市场营销)=0.1116比特 Gain(S,兴趣)=H(S)-H(兴趣)=0.7951比特 由此可得Gain(S,兴趣)最大,即个人兴

您可能关注的文档

文档评论(0)

linsspace + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档