- 1、本文档共92页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
IRM第09讲
* * * * * 9.2.数据挖掘技术 9.2.1 聚类分析 9.2.2 关联分析 9.2.3 分类发现 一、分类发现的含义 分类发现的目的是构造一个分类函数或分类模型(也称作分类器),通过分类函数,把数据库中的元组映射到给定类别中的某一个,即要发现一些指定的商品或事件是否属于某一特定数据子集的规则。 二、分类和聚类的差别 分类是“分”而成类,由有形的整体对象分解为若干部分或分支; 聚类是“聚”而生类,从大量联系不明显甚至表面无联系的文献或数据中产生相关的群或集。 9.2.3 分类发现 三、分类发现的处理过程 9.2.3 分类发现 分类模型的建立 该阶段也称监督学习,数据类别是事先已知的,需要做的工作是通过分析训练样本数据总结出一般性的分类规则,建立分类模型。 分类模型的应用 应用分类模型前,需要对建立的模型进行评估,在确保分类模型的准确性及精确度的情况下,才能运用该分类模型对未知其类别的数据样本进行分类处理。 第一阶段 第二阶段 四、决策树(Decision Tree) 9.2.3 分类发现 决策树是一种有指导学习的数据挖掘方法 决策树的组成 决策节点、分支、叶子 ———根节点 分支 ———叶子 Debt10% of Income Debt=0% Good Credit Risks Bad Credit Risks Good Credit Risks Yes Yes Yes NO NO NO Income$40K 节点 决策树的分支过程就是对数据进行分类的过程,利用几个变量(每个变量对应一个问题)来判断数据所属的类别。在分支后,要使不同分支之间数据的差异尽可能大、同一分支内的数据尽量相同。这一分割过程也就是数据的“纯化”过程。 决策表与决策树 9.2.3 分类发现 患者代码 嗓子痛 发烧 淋巴肿 充血 头痛 诊断结果 1 Yes yes Yes Yes Yes 咽炎 2 No No No Yes Yes 敏感症 3 Yes Yes No Yes No 感冒 4 Yes No Yes No No 咽炎 5 No Yes No Yes No 感冒 6 No No No Yes No 敏感症 7 No No Yes No No 咽炎 8 Yes No No Yes Yes 敏感症 9 No Yes No Yes Yes 感冒 10 yes Yes no Yes Yes 感冒 淋巴肿 发 烧 No No Yes Yes 敏感症 敏感症 咽炎 No Yes 头 痛 淋巴肿 感冒 发 烧 淋巴肿 No Yes 咽炎 No Yes 决策树的属性选取 属性选取标准: 最大化反映数据差异,使树的层次和节点数最小 9.2.3 分类发现 患者代码 嗓子痛 发烧 淋巴肿 充血 头痛 诊断结果 1 Yes yes Yes Yes Yes 咽炎 2 No No No Yes Yes 敏感症 3 Yes Yes No Yes No 感冒 4 Yes No Yes No No 咽炎 5 No Yes No Yes No 感冒 6 No No No Yes No 敏感症 7 No No Yes No No 咽炎 8 Yes No No Yes Yes 敏感症 9 No Yes No Yes Yes 感冒 10 yes Yes no Yes Yes 感冒 决策树的属性选取 属性选取标准: 最大化反映数据差异,使树的层次和节点数最小 淋巴肿 发 烧 No No Yes Yes 咽炎 敏感症 感冒 内容提要 9.1. 数据挖掘概念 9.2. 数据挖掘技术 9.3. 数据挖掘应用 一、数据挖掘应用架构 MIS ERP CRM E_Business DW 数据仓库 数据挖掘 算法库 模型库 组件库 产品推荐 客户细分 客户流失 客户利润 客户响应 … 行业应用 知识 应用服务器 信息系统 行业分析 数据挖掘应用平台 9.3.数据挖掘应用 9.3.数据挖掘的应用 二、数据挖掘的一般步骤 数据库 数据清理 数据集成 数据仓库 任务相关数据 选择 数据挖掘 模式评估 商业知识 9.3.数据挖掘的应用 二、数据挖掘的步骤 观点:数据挖掘是数据库中知识发现(KDD)的一个步骤。 粗略理解三部曲: 数据准备(data preparation); 数据挖掘(data mining);——指挖掘的算法 结果的解释评估(interpretation and evaluation) 9.3.数据挖掘的应用 二、数据挖掘的步骤 1、数据准备? 数据选择:目标数据 数据预处理:消除噪声、不一致、冗余等 数据变换:连续数据离散化、数据转化 数据归约:特征选择或抽取 2、数据挖掘算法的选择 首先要
您可能关注的文档
- 2016年中考物理专题练习《声现象》.doc
- 2016年中考物理答题技巧.doc
- 2016年中考物理专题练习5《物体的运动》.doc
- 温州票据(合同)企业股改税收风险.ppt
- 3-1(教科版)四年级科学上册第三单元第一课听听声音PPT.ppt
- 2016年中考模拟考科学试卷.doc
- 游戏你来比划我来猜的PPT.ppt
- IPV6_技术简介及应用PPT.ppt
- 3.1 倒数的认识1.ppt
- 游戏开发实战宝典_体育游戏_疯狂足球.ppt
- 10《那一年,面包飘香》教案.docx
- 13 花钟 教学设计-2023-2024学年三年级下册语文统编版.docx
- 2024-2025学年中职学校心理健康教育与霸凌预防的设计.docx
- 2024-2025学年中职生反思与行动的反霸凌教学设计.docx
- 2023-2024学年人教版小学数学一年级上册5.docx
- 4.1.1 线段、射线、直线 教学设计 2024-2025学年北师大版七年级数学上册.docx
- 川教版(2024)三年级上册 2.2在线导航选路线 教案.docx
- Unit 8 Dolls (教学设计)-2024-2025学年译林版(三起)英语四年级上册.docx
- 高一上学期体育与健康人教版 “贪吃蛇”耐久跑 教案.docx
- 第1课时 亿以内数的认识(教学设计)-2024-2025学年四年级上册数学人教版.docx
最近下载
- 海港总体设计规范,JTS165-2013.docx
- 六年级上册语文-晨读晚默(33页).pdf
- 2019年昆明呈贡公园概念设计(城市规划、景观园林专业资料).ppt
- 2023-2024在线学习课堂网课《伤寒论临证应用规律解析》单元测试考核答案.pdf
- v20变频器说明书.pdf
- 食品安全风险管控清单(蛋制品生产).docx VIP
- 药事管理与合理用药的现状及临床分析.docx
- ASUS华硕主板玩家国度(ROG)ROG MAXIMUS Z790 EXTREME 简体中文版使用手册.pdf
- “双带头人”教师党支部书记工作室申报书.docx VIP
- 2023年北京中考数学重难题型01新定义创新型综合压轴问题(13-22年最后一题+真题10道模拟30道)含详解.pdf VIP
文档评论(0)