- 1、本文档共11页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
决策树在汽车ERP系统中的应用探索
决策树在汽车ERP系统中的应用探索
第24卷第1期
2004年2月
桂林电子工业学院
JOURNALOFGUILINUNIVERSITYOFELECTRONICTECHNOLOGY
Vo1.24.No.1
Feb.2004
引言
决策树在汽车ERP系统中的应用探索
陈晴光
(1.浙江大学计算机学院,浙江杭州310027;
2.浙江经济管理学院计算机系,浙江临海317000)
摘要:为缓解传统ERP系统把企业需求预测作为外部输入的局限性,通过分析汽车行业应用ERP系
统存在的主要问题及原因,提出运用数据挖掘技术直接从汽车行业ERP系统中获取预测信息的方法,
即对ID3决策树生成算法改良后运用于汽车ERP系统进行数据挖掘.并对该方法实现的有利因素和技
术难点作了分析,通过数据挖掘模型实验检测了种挖掘的有效性.
关键词:决策树;ERP;数据挖掘;ID3算法
中图分类号:F270.7;TP18;U471.21文献标识码:A文章编号:1001—7437(2004)01—09—04
近年来,企业资源计划ERP(EnterpriseResource
Planning)在我国的应用越来越广泛,许多企业把实
施ERP系统作为在WTO环境下实现企业信息化,
提升竞争力的唯一选择.然而,对汽车业的调查资料
显示:ERP系统实施运行后,虽然在一定程度上有效
地改善了企业内部管理,但系统积累的大量实时数据
没有被深层次综合分析利用,系统存在数据利用程度
不够,预测功能难以有效实现等缺陷.
事实上,ERP作为一种先进的企业管理信息系
统,其基本特征是联机事务处理[1],一般着眼于企
业的后台管理,把需求预测作为外部输入,但是用常
规数据分析方法进行的市场销售预测往往不准确,因
而难以依据这种预测合理地安排生产.
能否利用ERP系统本身积累的大量完整数据资
料,并通过导入数据挖掘技术找出预测所需的信息
呢?在中国Geely汽车公司ERP(以下简称GI一
ERP)系统中的研究实验表明,利用决策树(Decision
Tree)方法在GL—ERP系统中进行数据挖掘是有效
的,可以为系统的需求预测提供一些潜在的有用信
息,在一定程度上缓解传统ERP系统把需求预测作
为外部输入带来的局限性.
1决策树方法及其应用技术难点
1.1基本思想与实用意义
决策树方法是数据挖掘的核心技术算法之一,它
通过将大量数据有目的地分类,从中找出一些潜在
的,对决策有价值的信息,常用于预测模型中.国际上
最早和最有影响的决策树方法是由Quiulan研制的
ID.决策树生成算法_3].
ID.算法的基本思想是:将一棵决策树看作一个
信源,利用信息论中的信息增益寻找数据库中具有最
大信息量的字段(fig性),建立决策树的一个节点,再
依次将字段的不同取值作为信宿的表现状态,找出信
息量最大的字段建立树的分支;然后在每个分支子集
中重复建立树的下层节点和分支的过程,即可建立决
策树.属性排序以着名信息学家香农(C.E.
Shannon)信息论中的熵概念[4]为理论基础,用熵来
度量信息的不确定性.熵实际上是系统信息量的加权
平均,即系统的平均信息量.要提高决策树的分类效
率,相当于要求熵值下降更快.因此,ID.算法的实质
是构造一株熵值下降平均最快的决策树.
例如,设某表由对象集u构成,共有t个属性
(A,A2,…A一,A),其中属性A,有W个取值{a『l
a…a,),这W个取值可将对象u分化为
收稿日期:2003—09—11
作者简介:陈晴光(1965一),男,湖北洪湖人,浙江大学计算机学院讲师,浙江经济管理学院计算机应用技术工程系硕士研究生,主要研究
方向为信息系统,数据挖掘.
重
10桂林电子工业学院2004年2月
{Un,U,2,…,U柚}.
若实例学习的目的是形成,z个分类,其中P表示发
生第.『类(1≤≤,z)信息的概率(在ID.中用相对频
率来近似表示),则预期信息量『4
H(u)一一:PJlog2PJ,
若用属性对对象集U的分化{UU…,U,}做
信宿,则后期信息量
H(ulA,)一gt;:P(u,)H(u),
,
信息增益为
(U,A)一日(U)一H(UlAj),
其中使得I(U,A,)一max[(U,A)]的属性A,含信
息量最大,为决策树的根,再对每一个分支的其他属
性循环使用该方法,即可得决策树.用ID.算法生成
的决策树中一个内部节点代表对某个属性的一次测
试,一条边代表一个测试结果,叶子代表某个类或者
类的分布,最上面的节点是根节点.决策树的根节点
对应于最大不确定状态,表示在分类开始之前对欲分
类的对象一无所知.随着每一个属性值的判断,从决
策树中选出一株子树后,不确定性就小了一些.到达
叶节点后,分类任务完成,不确定性也变为零.
使用决策树对一个对象进行分类
文档评论(0)