- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于 C4.5 决策树学生成绩数据
基于 C4.5 决策树学生成绩数据挖掘方法
哈申花,张春生
(内蒙古民族大学 计算机科学与技术学院,内蒙古 通辽 028043)
〔摘 要〕数据挖掘技术从产生以来得到了广泛的研究和应用,在数据的分类技术方面 C4.5 算法的研究已经
比较成熟,但在学生成绩挖掘方面的应用比较少,本文首先论述了主要分类技术,详细介绍了 C4.5 决策树分 类算法,并以实际学生成绩数据为依据,进行学生成绩的数据挖掘,通过对挖掘结果的分析表明,C4.5 决策树 算法高效、准确,是对学生成绩数据挖掘的首选工具.
〔关键词〕决策树;C4.5 算法;学生;成绩;数据挖掘
〔中图分类号〕TP311
〔文献标识码〕A
〔文章编号〕1671-0185(2010)02-0151-02
Data Mining Method of Students
Achievement Based on Decision Tree C4.5 Algorithm
Hashen-hua,ZHANG Chun-sheng
(College of Computer Science and Technology, Inner Mongolia University for Nationalities,Tongliao 028043,China )
Abstract: Data mining has obtained extensive research and the application since its appearance. The C4.5 algorithm is
already more mature in classifying technique of data, but the application of data mining of students achievement is rather few. The article initially studies the main classification technology, and introduces in detail decision tree C4.5 algorithm. The article takes data of the actual students achievement as a basis to mine data for students achievement. By the analysis of the result of data mining, we found that decision tree C4.5 algorithm is efficient, accurate and it is the first tools for data mining of Students achievement.
Key words: Decision tree;C4.5 algorithm; Students; Achievement; Data mining
1 引言
分类是指把数据项映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳 的学习算法得出分类.分类学习的目标是构建一个分类模型.它在构造模型时需要知道训练集中每个样本所属的类,因此 是有指导的学习方法.数据挖掘中应用分类方法的例子有很多,如金融市场中走向的分类、大型图像数据库中对象的识别、 医疗诊断、顾客的信用度分析等〔1~8〕.
数据挖掘中广泛使用的分类方法有决策树、贝叶斯分类、规则推理、遗传算法和神经网络等.本文讨论的是其中的决策 树方法,并将决策树中的 C4.5 算法应用于学生成绩数据挖掘,取得了比较满意的效果.
2 决策树方法概述
2.1 决策树学习过程 决策树算法的分类学习过程包括两个阶段:树构造(TreeBuilding)和树剪枝(Tree Pruning).
① 树构造阶段.决策树采用自顶向下的递归方式:从根节点开始在每个节点上按照给定标准选择测试属性,然后按照 相应属性的所有可能取值向下建立分枝、划分训练样本,直到一个节点上的所有样本都被划分到同一个类,或者某一节点 中的样本数量低于给定值时为止.这一阶段最关键的操作是在树的节点上选择最佳测试属性,该属性可以将训练样本进行
收稿日期:2009-09-12
152内 蒙 古 民 族 大 学 学 报2010 年最好的划分.选择测试属性的标准有信息增益、信息增益比
152
内 蒙 古 民 族 大 学 学 报
2010 年
最好的划分.选择测试属性的标准有信息增益、信息增益比、基尼指数(Gini Index)以及基于距离的划分等.此外,测试属性的
取值可以是连
您可能关注的文档
- 基础会计期末复习指导.doc
- 基础会计资产负债表及利润表试题.docx
- 基础教育改革复习提纲.doc
- 基础教育概论.doc
- 基础教育阶段择校问题研究综述.doc
- 基础开挖单元工程质量评定表.doc
- 基础设施建设投资决策分析.docx
- 基础图案设计课程教学大纲.doc
- 基础中老年营养讲座.ppt
- 基尔霍夫电流定律教案.doc
- DeepSeek培训课件入门宝典:第2册 开发实战篇 .pptx
- 全面认识全过程人民民主-2024春形势与政策课件.pptx
- 2024春形势与政策-全面认识全过程人民民主.pptx
- 2025年春季学期形势与政策第二讲-中国经济行稳致远讲稿.docx
- 2024春形势与政策-铸牢中华民族共同体意识课件.pdf
- 2024春形势与政策-走好新时代科技自立自强之路课件 (2).pptx
- 2024春形势与政策-走好新时代科技自立自强之路课件.pptx
- 形势与政策学习指导教学-整套课件.pdf
- 2023年春季形势与政策讲稿第三讲-开创高质量发展新局面.pdf
- DeepSeek培训课件-清华大学-DeepSeek模型本地部署与应用构建.pptx
文档评论(0)