决策树在汽车ERP系统中的应用探索.doc

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
决策树在汽车ERP系统中的应用探索

决策树在汽车ERP系统中的应用探索 第24卷第1期 2004年2月 桂林电子工业学院 JOURNALOFGUILINUNIVERSITYOFELECTRONICTECHNOLOGY Vo1.24.No.1 Feb.2004 引言 决策树在汽车ERP系统中的应用探索 陈晴光 (1.浙江大学计算机学院,浙江杭州310027; 2.浙江经济管理学院计算机系,浙江临海317000) 摘要:为缓解传统ERP系统把企业需求预测作为外部输入的局限性,通过分析汽车行业应用ERP系 统存在的主要问题及原因,提出运用数据挖掘技术直接从汽车行业ERP系统中获取预测信息的方法, 即对ID3决策树生成算法改良后运用于汽车ERP系统进行数据挖掘.并对该方法实现的有利因素和技 术难点作了分析,通过数据挖掘模型实验检测了种挖掘的有效性. 关键词:决策树;ERP;数据挖掘;ID3算法 中图分类号:F270.7;TP18;U471.21文献标识码:A文章编号:1001—7437(2004)01—09—04 近年来,企业资源计划ERP(EnterpriseResource Planning)在我国的应用越来越广泛,许多企业把实 施ERP系统作为在WTO环境下实现企业信息化, 提升竞争力的唯一选择.然而,对汽车业的调查资料 显示:ERP系统实施运行后,虽然在一定程度上有效 地改善了企业内部管理,但系统积累的大量实时数据 没有被深层次综合分析利用,系统存在数据利用程度 不够,预测功能难以有效实现等缺陷. 事实上,ERP作为一种先进的企业管理信息系 统,其基本特征是联机事务处理[1],一般着眼于企 业的后台管理,把需求预测作为外部输入,但是用常 规数据分析方法进行的市场销售预测往往不准确,因 而难以依据这种预测合理地安排生产. 能否利用ERP系统本身积累的大量完整数据资 料,并通过导入数据挖掘技术找出预测所需的信息 呢?在中国Geely汽车公司ERP(以下简称GI一 ERP)系统中的研究实验表明,利用决策树(Decision Tree)方法在GL—ERP系统中进行数据挖掘是有效 的,可以为系统的需求预测提供一些潜在的有用信 息,在一定程度上缓解传统ERP系统把需求预测作 为外部输入带来的局限性. 1决策树方法及其应用技术难点 1.1基本思想与实用意义 决策树方法是数据挖掘的核心技术算法之一,它 通过将大量数据有目的地分类,从中找出一些潜在 的,对决策有价值的信息,常用于预测模型中.国际上 最早和最有影响的决策树方法是由Quiulan研制的 ID.决策树生成算法_3]. ID.算法的基本思想是:将一棵决策树看作一个 信源,利用信息论中的信息增益寻找数据库中具有最 大信息量的字段(fig性),建立决策树的一个节点,再 依次将字段的不同取值作为信宿的表现状态,找出信 息量最大的字段建立树的分支;然后在每个分支子集 中重复建立树的下层节点和分支的过程,即可建立决 策树.属性排序以着名信息学家香农(C.E. Shannon)信息论中的熵概念[4]为理论基础,用熵来 度量信息的不确定性.熵实际上是系统信息量的加权 平均,即系统的平均信息量.要提高决策树的分类效 率,相当于要求熵值下降更快.因此,ID.算法的实质 是构造一株熵值下降平均最快的决策树. 例如,设某表由对象集u构成,共有t个属性 (A,A2,…A一,A),其中属性A,有W个取值{a『l a…a,),这W个取值可将对象u分化为 收稿日期:2003—09—11 作者简介:陈晴光(1965一),男,湖北洪湖人,浙江大学计算机学院讲师,浙江经济管理学院计算机应用技术工程系硕士研究生,主要研究 方向为信息系统,数据挖掘. 重 10桂林电子工业学院2004年2月 {Un,U,2,…,U柚}. 若实例学习的目的是形成,z个分类,其中P表示发 生第.『类(1≤≤,z)信息的概率(在ID.中用相对频 率来近似表示),则预期信息量『4 H(u)一一:PJlog2PJ, 若用属性对对象集U的分化{UU…,U,}做 信宿,则后期信息量 H(ulA,)一gt;:P(u,)H(u), , 信息增益为 (U,A)一日(U)一H(UlAj), 其中使得I(U,A,)一max[(U,A)]的属性A,含信 息量最大,为决策树的根,再对每一个分支的其他属 性循环使用该方法,即可得决策树.用ID.算法生成 的决策树中一个内部节点代表对某个属性的一次测 试,一条边代表一个测试结果,叶子代表某个类或者 类的分布,最上面的节点是根节点.决策树的根节点 对应于最大不确定状态,表示在分类开始之前对欲分 类的对象一无所知.随着每一个属性值的判断,从决 策树中选出一株子树后,不确定性就小了一些.到达 叶节点后,分类任务完成,不确定性也变为零. 使用决策树对一个对象进行分类

文档评论(0)

133****9031 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档