c4.5算法的过程与实际应用分析.docVIP

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
c4.5算法的过程与实际应用分析

xxxxxxxxx学院 《数据挖掘》课程实验报告 (个人论文) 实验名称 C4.5算法实验 系 部 计算机科学与工程系 班 级 2011级软件工程x班 学 号 XXXXXXXXX 姓 名 XXXXX 指导老师 XXXXXXX 计算机 2014年 12 月 2 日 论 文 目 录 第1章 数据仓库概述 1 1.1 数据仓库的产生 1 1.1.1 数据库定义 1 1.1.2 数据仓库是信息传递的一种简单概念 2 1.1.3 数据仓库是一种环境而不是产品 2 2.1 数据仓库的类型 3 3.1 数据仓库的类型 3 4.1 为什么要建立数据仓库 4 5.1 数据库和数据仓库的区别 6 第2章 数据挖掘概述 8 2.1 背景 8 2.2 数据挖掘定义 9 2.3 基本概念 10 2.4 主要功能 10 2.4.1. 概念/类别描述(Concept/Class Description) 10 2.4.2. 关联分析(Association Analysis) 11 2.4.3. 分类与估值(Classification and Estimation) 11 2.4.4. 聚类分析(Clustering Analysis) 11 2.4.5. 时间序列分析(Time-Series Analysis) 11 2.4.6. 其它功能 12 2.5 数据挖掘的应用 12 第3章 数据挖掘常用算法 13 3.1 C4.5算法 13 3.2 K-Means算法 13 3.3 Support vector machines 13 3.4 The Apriori algorithm 14 3.5 最大期望(EM)算法 14 3.6 PageRank 14 3.7 AdaBoost 14 3.8 kNN: k-nearest neighbor classification 15 3.9 Naive Bayes 15 3.10 CART: 分类与回归树 15 第四章C4.5算法的过程与实际应用分析 15 4.1 数据挖掘和决策树挖掘 16 4.2 保险数据预处理 16 4.3 用C4.5算法构建客户流失决策树 18 4.3.1 决策树生成 18 4.3.2 决策树剪枝 20 4.3.2 模式评估与应用 20 第5章 总结 21 第1章 数据仓库概述 随着我行信息科技工作进入后蓝图时代,后线分析系统建设的需求会越来越高,将在快速响应、高效实施、灵活应变、信息统一、全局分析、深度挖掘、监管有力、报送及时、降低成本等方面提出更多新的挑战。面对蓝图成功投产后新的产品体系,如何统一规划全辖数据资源、整合后线产品架构、准备各项技术预研可能是将来信息科技工作的一个重心。 数据仓库(DW)是各行业后线系统发展的一个重要方向,它在克服部门级应用的局限(数据分隔、重复存储、重复中间加工过程、维护工作繁琐、资源重复投入等)、满足全辖基础数据共享、提供全局分析视角和应用组件、支持快捷灵活和低成本的开发部署等方面有着不可替代的功能和地位。 数据仓库本身有着不同视角的概念解释,大可涵盖整个企业级应用架构,小可专注于单纯的数据建模与存储;数据仓库涉及重多相关技术,如ETL、数据模型设计、多维分析、数据挖掘等;数据仓库建设可能是一个复杂高难的全局性项目,正确的实施路径、策略、方法与有效的质量管理是项目成败的关键;另外,数据仓库系统实施后的管理与维护,也是保证各类后线应用系统长期顺利运行的重要因素。针对这些数据仓库相关的概念、技术、策略、方法等,可能并不是每个人都有比较全面的了解。因此有必要对这些做一个系统的介绍,使大家对数据仓库有一个全面清晰的认识。 1.1 数据仓库的产生 1.1.1 数据库定义 目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W.H.Inmon在其1991年出版的著作《Building the Data Warehouse》一书中给予如下描述: 数据仓库(Data Warehouse)是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解: – 首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库; – 其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。 (1)面向主题性 – 操作型数据库的数据组织面向事务处理任务,各个业

文档评论(0)

kfcel5460 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档