自组织数据挖掘方法-mipaper.pdf

  1. 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
  2. 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
  3. 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
自组织数据挖掘方法-mipaper

自组织数据挖掘方法 从数据中提取信息的理论 方法及应用 谨以此书献给 GMDH 理论之父 A. G. Ivakhnenko 教授八十五岁寿辰 * * * * * * 序 随着信息技术的飞速发展 如今几乎人类活动中每一个领域都充斥着大 量的统计测量数据 曾经广受赞誉的管理信息系统 MIS 和决策支持系统 DSS 在如山的数据面前 其局限性也日益显露 因为它们只能提供大量 的数据而不能从数据中提炼出足够的直接可用的知识信息 因此 发现总结 数据规律 提取出数据中所蕴含的信息 已经成为了辅助决策的重要组成部 分 而这一从数据到信息和知识的过程 被人们形象地称为 数据挖掘 Data Mining 目前已有众多不同的数据挖掘方法 笔者认为 一种好的数据挖掘方法 首先应该使数据挖掘过程的自动完成 以排除人们主观认识对建模结果的影 响 近年保证数据挖掘的客观性 另一方面 人们对数据挖掘的兴趣通常只 在于最后的结果 因此一种好的数据挖掘方法不应该要求用户精通数学 控 制论 统计学等理论 也不应要求用户花大量时间去处理一个对话框接一个 对话框的复杂数学建模软件 目前已经有一些数据挖掘方法在不同程度上实现了智能化建模 如模糊 建模方法 神经网络 遗传算法等等 其中人工神经网络方法在近年倍受瞩 目 但是它有着如下的缺点 神经网络模型只能得出结果 而不能解释结果 它从数据中提取出的 信息仍然隐含在网络结构中 神经网络没有一种系统地构造网络结构的方法 建模者必须反复试验 很多神经网络的训练算法在速度和拟合效果上往往还不及统计计算方 法 当样本数据存在噪声时 神经网络模型常发生过度拟合现象 为克服神经网络这些不足 我们的方法是将遗传算法作为一项外部过程 来优化网络结构 同时加上一些修正措施以防止模型的过拟合 本书介绍了网络构建的 进化 遗传 变异 选择 原理 在这个原理 下 由一个简单的初始结构开始 可以产生一系列具有某种 进化 特征的 模型 这一系列模型的复杂性逐步递增 而复杂性递增的每一步都是在大量 待选模型经 适者生存 的选择后获得的 不断地产生 选择 淘汰和进化 直到最优复杂性的模型被选出为止 这些模型对应着由活动神经元构成的神 经网络 随着模型的进化 这一树状网络也不断生出枝节 网络的层数 层 间节点数都不需用户指定 整个建模过程是一个完全自组织的过程 也是为 此 我们将其命名为 自组织数据挖掘 方法 自组织数据挖掘方法能够自动确认模型的参数和结构 产生最优复杂性 的模型 所谓 最优复杂性 即当数据噪声存在时 对已学习过的数据集上 的拟合精度和对未经学习的数据的预测 分类等能力之间的一个最优平衡点 最优复杂性解决了拟合精度不高的问题 也避免了模型对数据噪声的过拟合 使得自组织数据挖掘方法较其它所有数据挖掘方法更加的智能 快捷和高效 自组织数据挖掘方法与一般神经网络方法的区别在于前者是一种统计学 习网络 具有归纳的功能 最早的统计学习网络算法 成组数据处理算法 GMDH 由乌克兰控制论学家A. G. Ivakhnenko 在 1967 年提出 70 年代 Barron 提出的多项式网络训练算法 PNETTR 和 80 年代 Elder 提出的多项 式网络综合算法 ASPN 是其发展过程中两个重要里程碑 这两项成就把自 适应学习网络和 GMDH 算法结合到了一起 在软件 KnowledgeMiner 中具体 实现了目前必威体育精装版的理论和算法进展 这些在本书中亦有详述 KnowledgeMiner 是一款功能强大而易用的自组织建模和预测软件 它内 置三项必威体育精装版自组织建模技术 GMDH 算法 模拟复杂性算法和模糊法则的自 组织归纳算法 对 GMDH 算法又有三项工具 活动神

文档评论(0)

zhuwo + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档