决策树在汽车ERP系统中的应用探索.doc

下载文档 降价啦

6
0
约6.96千字
约 11页
2018-10-12 发布于重庆
举报
版权申诉
保障服务

决策树在汽车ERP系统中的应用探索.doc

1、本文档共11页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

决策树在汽车ERP系统中的应用探索

决策树在汽车ERP系统中的应用探索第24卷第1期 2004年2月桂林电子工业学院 JOURNALOFGUILINUNIVERSITYOFELECTRONICTECHNOLOGY Vo1.24.No.1 Feb.2004 引言决策树在汽车ERP系统中的应用探索陈晴光 (1.浙江大学计算机学院,浙江杭州310027; 2.浙江经济管理学院计算机系,浙江临海317000) 摘要:为缓解传统ERP系统把企业需求预测作为外部输入的局限性,通过分析汽车行业应用ERP系统存在的主要问题及原因,提出运用数据挖掘技术直接从汽车行业ERP系统中获取预测信息的方法, 即对ID3决策树生成算法改良后运用于汽车ERP系统进行数据挖掘.并对该方法实现的有利因素和技术难点作了分析,通过数据挖掘模型实验检测了种挖掘的有效性. 关键词:决策树;ERP;数据挖掘;ID3算法中图分类号:F270.7;TP18;U471.21文献标识码:A文章编号:1001—7437(2004)01—09—04 近年来,企业资源计划ERP(EnterpriseResource Planning)在我国的应用越来越广泛,许多企业把实施ERP系统作为在WTO环境下实现企业信息化, 提升竞争力的唯一选择.然而,对汽车业的调查资料显示:ERP系统实施运行后,虽然在一定程度上有效地改善了企业内部管理,但系统积累的大量实时数据没有被深层次综合分析利用,系统存在数据利用程度不够,预测功能难以有效实现等缺陷. 事实上,ERP作为一种先进的企业管理信息系统,其基本特征是联机事务处理[1],一般着眼于企业的后台管理,把需求预测作为外部输入,但是用常规数据分析方法进行的市场销售预测往往不准确,因而难以依据这种预测合理地安排生产. 能否利用ERP系统本身积累的大量完整数据资料,并通过导入数据挖掘技术找出预测所需的信息呢?在中国Geely汽车公司ERP(以下简称GI一 ERP)系统中的研究实验表明,利用决策树(Decision Tree)方法在GL—ERP系统中进行数据挖掘是有效的,可以为系统的需求预测提供一些潜在的有用信息,在一定程度上缓解传统ERP系统把需求预测作为外部输入带来的局限性. 1决策树方法及其应用技术难点 1.1基本思想与实用意义决策树方法是数据挖掘的核心技术算法之一,它通过将大量数据有目的地分类,从中找出一些潜在的,对决策有价值的信息,常用于预测模型中.国际上最早和最有影响的决策树方法是由Quiulan研制的 ID.决策树生成算法_3]. ID.算法的基本思想是:将一棵决策树看作一个信源,利用信息论中的信息增益寻找数据库中具有最大信息量的字段(fig性),建立决策树的一个节点,再依次将字段的不同取值作为信宿的表现状态,找出信息量最大的字段建立树的分支;然后在每个分支子集中重复建立树的下层节点和分支的过程,即可建立决策树.属性排序以着名信息学家香农(C.E. Shannon)信息论中的熵概念[4]为理论基础,用熵来度量信息的不确定性.熵实际上是系统信息量的加权平均,即系统的平均信息量.要提高决策树的分类效率,相当于要求熵值下降更快.因此,ID.算法的实质是构造一株熵值下降平均最快的决策树. 例如,设某表由对象集u构成,共有t个属性 (A,A2,…A一,A),其中属性A,有W个取值{a『l a…a,),这W个取值可将对象u分化为收稿日期:2003—09—11 作者简介:陈晴光(1965一),男,湖北洪湖人,浙江大学计算机学院讲师,浙江经济管理学院计算机应用技术工程系硕士研究生,主要研究方向为信息系统,数据挖掘. 重 10桂林电子工业学院2004年2月 {Un,U,2,…,U柚}. 若实例学习的目的是形成,z个分类,其中P表示发生第.『类(1≤≤,z)信息的概率(在ID.中用相对频率来近似表示),则预期信息量『4 H(u)一一:PJlog2PJ, 若用属性对对象集U的分化{UU…,U,}做信宿,则后期信息量 H(ulA,)一gt;:P(u,)H(u), , 信息增益为 (U,A)一日(U)一H(UlAj), 其中使得I(U,A,)一max[(U,A)]的属性A,含信息量最大,为决策树的根,再对每一个分支的其他属性循环使用该方法,即可得决策树.用ID.算法生成的决策树中一个内部节点代表对某个属性的一次测试,一条边代表一个测试结果,叶子代表某个类或者类的分布,最上面的节点是根节点.决策树的根节点对应于最大不确定状态,表示在分类开始之前对欲分类的对象一无所知.随着每一个属性值的判断,从决策树中选出一株子树后,不确定性就小了一些.到达叶节点后,分类任务完成,不确定性也变为零. 使用决策树对一个对象进行分类