基于决策树算法的洪水水位预报模型.ppt

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于决策树算法的洪水水位预报模型

基于决策树算法的洪水水位预报模型 汇报人:孟丽媛 研究意义与背景 基于决策树算法的洪水预报 实例研究 随着观测手段的发展与时间的推移,水文系统已积累了大量的水文历史数据,这些数据是各种客观因素作用的结果,包含了大量信息,其中就包括一些在模型中难以考虑但又很有意义的水文现象形成因素。有效利用这些数据,并从中提取对洪水预报有用的信息,是一项非常有意义的工作。 数据挖掘(Data Mining,DM),是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程,而决策树分类模型即是数据挖掘技术中用来解决分类问题的一种方法,近年来也被应用于水文领域中。 采用决策树方法,根据历史水文数据库中的可用信息分析规律得出知识,以对未来的洪水进行类别判断。 研究意义与背景 决策树模型 决策树(见图1)的基本算法是贪心算法,采用自顶向下的递归方式构造决策树。它以样本为基础进行归纳学习.其表现形式就是一个类似流程图的树形结构。 决策树的生成是一个从根节点开始、由上向下的递归过程,一般采用分而治之的方法,通过不断地将训练样本分割成子集来构造决策树。树的构造通常包括利用训练集生成决策树与对决策树进行剪枝两个步骤。算法的核心问题就是属性选择和剪枝策略:属性选择要求在每个结点选取要分类效果最好的属性.传统的属性选择标准有信息增益(information gain)、信息增益率(gain ratio)、基尼索引(Gini index)、最小描述长度(minimum description length,MDL) 等;剪枝策略又分前剪枝和后剪枝两种方法。 决策树算法中C4.5是最具代表性。也是使用最普遍的方法。其属性选择采用基于信息理论的选择策略,通过计算信息增益比来帮助确定每个节点的分裂属性,每个节点均选择具有最高信息增益比的属性作为当前节点的分裂属性。这种属性选择方法使得之后生成的树对训练样本进行分类时所需的信息最小。 假设T是一个训练集,其中包括n个样本,样本分别属于m个类别,其中第i个类在T中出现的比例为Pi,那么T的信息熵 假设属性A将T划分为V个子集{T1,T2,?,Tv,}其中Ti所包含的样本数为ni,则划分后的熵 那么分裂后的信息增益 Gain(T,A)表示知道属性A之后导致的熵的期望压缩。显然,这种压缩越大越好。压缩越大,则在已知属性A的值之后,对样本的分类判别帮助越大。 信息增益比是Quinlan在信息增益的基础上提出的新的度量,其中引入了一个称为分裂信息(Split Information)的概念,分裂信息定义为训练集T关于属性A的各取值的熵 其中,Ti为训练集T的样本中A属性取第i个值时对应的子集.属性将A划分为V个子集,即属性A共有V个取值(A为离散属性)或A有V个阈值(A为连续属性)。 信息增益比为信息增益与分裂信息的比值, 即当某个属性的取值较多,且均匀性较好(即样本中该属性划分生成的V个子集的样本数量差别不大)时,该属性对应的却Splitlnfo(T,A)越大,则GR(T,A)越小,从而降低了在选择分裂属性时选择取值较多而将样本分割较为均匀的属性的可能。之所以要避免选择这些属性,是因为选择这些属性常常会增加树的复杂性。 C4.5方法的流程如下: (1)创建节点N。 (2)如果训练集T都属于同一类C,则N为叶节点,标记为类C。 (3)如果训练集的属性数为空,即没有属性来进行分裂,或者N中所剩的样本数少于某给定值;则T为叶节点,标记该节点为T中出现最多的类。 (4)如果不满足(2)、(3),则对训练集T可以取的各个属性分别计算信息增益率。 (5)选择各属性中具有最高信息增益率的属性作为分裂属性,将训练集分割,该属性的各个取值或阈值对应生成新的子节点。 (6)对每个从节点N长出的新子节点进行判断。如果叶节点对应的样本子集T’为空,则分裂该叶节点生成一个新叶节点,将其标记为T中出现最多的类;否则在该子节点上重复步骤(2)(6)对其继续分裂。 (7)计算每个节点的分类错误,进行树剪枝。 (8)对最终生成的决策树进行分类规则提取。 基于决策树算法的洪水预报 根据决策树算法的特点,可以利用决策树模型充分提取现有水文相关数据库中与洪水有关的有价值的关系与模式对洪水进行分类,从而进行洪水预报。 1 数据分析与预处理 数据越多的数据库,其决策树模型的效果越明显.这是其显著的优点。应根据挖掘目的对数据对象进行分析和预处理,剔除无用的数据,以帮助提高分类或预测的准确性、效率和可扩展性。 (1)噪声数据的处理。 这里的噪声数据包括水文缺测数据、错报数据和同一数据而不同数据源上报不同的不一致数据。 (2)不同数据源数据的集成。 水文数据包括多数据源,对这些多数据源的数据需要集成处理

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档