- 1、本文档共45页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
001数据仓库与数据挖掘技术概述2要点
数据仓库与数据挖掘技术概述 数据挖掘 第一讲 绪论 什么是数据挖掘? 数据挖掘的步骤 数据挖掘的主要功能(任务) 概念/类描述:特征化和区分 关联分析 分类和预测 聚类分析 孤立点分析 演变分析 在何种数据上进行数据挖掘(对象) 数据挖掘技术的前景 数据挖掘的案例:“啤酒”和“尿布” 一则广为流传的案例:啤酒和尿布的故事 什么是数据挖掘? 数据挖掘的定义非常模糊,对它的定义取决于定义者的观点和背景。如下是一些DM文献中的定义: 数据挖掘是一个从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。 --Fayyad. 数据挖掘是一个从大型数据库中提取以前未知的,可理解的,可执行的信息并用它来进行关键的商业决策的过程。 --Zekulin. 数据挖掘是用在知识发现过程,来辩识存在于数据中的未知关系和模式的一些方法。 --Ferruzza 数据挖掘是发现数据中有益模式的过程。 --Jonn 数据挖掘是我们为那些未知的信息模式而研究大型数据集的一个决策支持过程。 --Parsaye 什么是数据挖掘? 从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。 非平凡(的过程):有一定的智能性、自动性(仅仅给出所有数据之和不能算做一个发现过程)。 有效性:所发现的模式对新的数据仍保持一定的可信度。 新颖性:所发现的模式应该是新的。 潜在有用性:所发现的模式将来有实际的效用。 最终可理解性:能被用户理解,如:简洁性 有趣性:有效性、新颖性、潜在有用性、最终可理解性的综合。 数据挖掘: 多个学科的融合 数据挖掘的称谓 数据挖掘涉及多学科领域,有多个术语名称(可能其内容的侧重点略有差异)。 数据挖掘(data mining) 数据库中的知识发现(KDD, knowledge discovery in databases) 知识抽取(knowledge extraction) 信息发现(information discovery) 智能数据分析(intelligent data analysis) 探索式数据分析(exploratory data analysis) 信息收获 (information harvesting) 数据考古(data archeology) ?“数据挖掘”流行于 统计界、数据库、数据分析、管理信息系统界 数据挖掘的步骤 观点:数据挖掘是数据库中的知识发现(KDD)的一个步骤。 ? 粗略理解三部曲: 数据准备(data preparation)、 数据挖掘(data mining) 结果的解释评估(interpretation and evaluation) 数据挖掘的步骤 数据准备? 数据选择:目标数据 数据预处理:消除噪声、不一致、冗余等 数据变换:连续数据离散化、数据转化 数据归约:特征选择或抽取 数据挖掘时,需要 明确任务如数据总结、分类、聚类、关联规则发现、序列模式发现等。 考虑用户的知识需求(得到描述性的知识、预测型的知识)。 根据具体的数据集合,选取有效的挖掘算法。 数据挖掘的步骤 结果的解释评估(interpretation and evaluation) 对挖掘出来的结果(模式),经用户或机器评价,剔除冗余或无关的模式。 模式不满足用户需求时,返回到某一步,重新挖掘。如:重新选择数据、采用新的变换方法、设定新的数据挖掘参数,或者换一种挖掘算法(如分类方法,不同的方法对不同的数据有不同的效果)。 挖掘的结果是面向用户的,对挖掘结果进行可视化或者转化为用户易于理解的形式表示。 ?评注 影响挖掘结果质量的因素:采用的算法、数据本身的质量与数量 数据挖掘的过程是一个不断反馈的过程 可视化在数据挖掘过程的各个阶段都扮演着重要角色,如用散点图或直方图等统计可视化技术来显示有关数据,以期对数据有一个初步的了解。 KDD的一般步骤 传统KDD的一般步骤(细化) 数据清理: (这个可能要占全过程60%的工作量) 数据集成 数据选择 数据变换 数据挖掘(选择适当的算法来找到感兴趣的模式) 模式评估 知识表示 数据挖掘: 数据库中的知识挖掘(KDD) 数据挖掘——知识挖掘的核心 数据挖掘的主要功能 ——可以挖掘哪些模式? 一般功能 描述性
您可能关注的文档
- (4.10)渣油安全技术说明书.doc
- 持续督导中的突出问题-1104.ppt
- 按购买力平价法计算的人均国民生产总值(1996、2000年).doc
- 按课文内容填空.ppt
- (LQBC-T)激光测拱仪说明书48.doc
- (中外合作)2016级计算机基础B实验报告书:彭康洪.doc
- (五)Windows系统.doc
- (临门一脚)2015年高考物理 热点专题精确射靶专题复习 专题五 直流电与交流电.doc
- 挑战挫折课件.ppt
- (上课用)生态系统的能量流动.ppt
- 第三单元名著导读《骆驼祥子》课件+2024-2025学年统编版语文七年级下册+.pptx
- 高考英语题型归纳---七选五解题技巧+课件-2025届高三英语二轮复习专项.pptx
- 2025届新高考英语必背++写作高分语料素材+清单.docx
- 2025届高考小说复习之探究标题和主题意蕴.pptx
- 河北省承德市2024-2025学年高一上学期期末检测政治试题(解析版).docx
- 河北省邯郸市部分学校2024-2025学年高三上学期第一次月考政治试题(解析版).docx
- 2025年消防月主题培训课件.ppt
- 《煤矿掘进现场管理》培训课件2025.ppt
- 《关于防范遏制矿山领域重特大生产安全事故的硬措施》解读培训课件2025.ppt
- 《硬措施》培训课件2025.ppt
最近下载
- 第一课整理书包有条理(课件)-一年级上册劳动鄂教版.pptx
- QJ 2850A-2011 航天产品多余物预防和控制.doc
- 2025道德与法治九年级上册开学第一课(含视频).pptx
- 消防质量保证体系及质量保证措施v2.pdf VIP
- 《智慧运输运营》课件——项目七 物流运输决策.pptx VIP
- Unit 7(单元解读课件)-八年级英语上册同步备课系列(人教版).pptx VIP
- (2021-2025)中医医院“十四五”建设与发展规划.pdf VIP
- 活在课堂里 课件.pptx VIP
- 中华传统文化教学设计(山东教育出版社)【四年级】.docx
- 必威体育精装版苏教版小学数学六年级上册(全套)试卷【含答案】.doc
文档评论(0)