- 1、本文档共45页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类分析 聚类分析: 将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。 最大化类内的相似性和最小化类间的相似性 例:对WEB日志的数据进行聚类,以发现相同的用户访问模式 离群点分析 离群点分析 离群点:一些与数据的一般行为或模型不一致的孤立数据。 通常离群点被作为“噪音”或异常被丢弃,但在欺诈检测中却可以通过对罕见事件进行离群点分析而得到结论。 应用 信用卡欺诈检测 移动电话欺诈检测 客户划分 医疗分析(异常) 趋势和演变分析 描述行为随时间变化的对象的发展规律或趋势(时序数据库) 趋势和偏差: 回归分析 序列模式匹配:周期性分析 基于类似性的分析 所有模式都是有趣的吗? 数据挖掘可能产生数以千计的模式或规则,但并不是所有的模式或规则都是令人感兴趣的。 模式兴趣度的度量: 一个模式是有趣的,如果(1) 它易于被人理解 ;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设。 模式兴趣度的客观和主观度量: 客观度量: 基于所发现模式的结构和关于它们的统计, 比如: 支持度、置信度等等。 主观度量: 基于用户对数据的判断。比如:出乎意料的、新颖的、可行动的等等。 能够产生所有有趣模式并且仅产生有趣模式吗? 找出所有有趣的模式: 数据挖掘算法的完全性问题 数据挖掘系统能够产生所有有趣的模式吗? 试探有哪些信誉好的足球投注网站 vs.穷举有哪些信誉好的足球投注网站 关联 vs. 分类 vs. 聚类 只有哪些信誉好的足球投注网站有趣的模式: 数据挖掘算法的最优化问题 数据挖掘系统可以仅仅发现有趣的模式吗? 方法 首先生成所有模式然后过滤那些无趣的。 仅仅生成有趣的模式—挖掘查询优化。 数据挖掘:多个学科的融合 数据挖掘 数据库系统 统计学 其他学科 算法 机器学习 可视化 数据挖掘系统的分类 (1) 数据挖掘的多学科融合的特性,决定了数据挖掘的研究将产生种类繁多的数据挖掘系统。 根据挖掘的数据库类型分类 根据数据模型:关系数据库、事务数据库、面向对象数据库、对象-关系数据库、数据仓库的挖掘系统。 根据所处理数据的特定类型:空间数据库、时序数据库、文本数据库、流数据、多媒体数据库、异构数据库、历史数据库、WWW挖掘系统。 数据挖掘系统的分类 (2) 根据挖掘的知识类型(数据挖掘的功能)分类 根据挖掘的知识类型(功能):特征化、 区分、 关联分析、 分类、预测、聚类、离群点分析、演变分析、 偏差分析等。 根据所挖掘的知识的粒度或抽象层:广义知识(高抽象层)、原始层知识(原始数据层)、多层知识(考虑若干抽象层)。 根据挖掘所用的技术分类 根据用户交互程度:自动系统、交互探查系统、查询驱动系统。 根据所用的分析方法:面向数据库或面向数据仓库的技术 、机器学习、统计学、可视化、模式识别、神经网络等。 根据应用分类 金融、电信、 DNA分析、股票市场、e-mail等。 数据挖掘任务原语(单独讲解) 数据挖掘系统与数据库系统/数据仓库系统的集成——数据挖掘系统的体系结构 一个好的系统体系结构,可以使数据挖掘系统在性能、可交互性、可使用性以及可扩展性等多个方面都得到良好的保证。 当前大部分数据都是存储在数据库或者是数据仓库之中,在此基础上往往还构建了综合的信息处理和信息分析功能。 数据挖掘系统体系结构的核心问题:我们是否应当将数据挖掘系统与数据库/数据仓库系统集成(或耦合) 不耦合(no coupling) 松散耦合(loose coupling ) 半紧密耦合(semitight coupling ) 紧密耦合(tight coupling ) DM与DB/DW的耦合方式 (1) 不耦合 DM系统不利用DB/DW系统的任何功能。 简单,但是没有利用数据库的功能意味着信息分析处理借助第三方工具,这使得系统的构建和集成变得很困难。 松散耦合 DM系统将使用DB/DW系统的某些功能。 简单地利用DB/DW提供的数据查询功能,没有使用DB/DW的后台优化,算法大部分是基于内存的,性能和可扩展性差。 DM与DB/DW的耦合方式 (2) 半紧密耦合 除了将DM系统连接到一个DB/DW系统之外,一些基本数据挖掘原语(通过分析频繁遇到的数据挖掘功能确定)可以在DB/DW系统中实现。 一些中间的挖掘结果可以在DB/DW上实现计算或有效的即时计算,性能会有较大提高。 紧密耦合 DM系统平滑地集成到DB/DW系统中。数据挖掘子系统被视为信息挖掘子系统的一部分,数据挖掘查询和功能根据DB或DW系统的挖掘查询分析、数据结构、索引模式和查询处理方法优化。 提供了一个统一的信息处理平台,功能、性能等方面都会达到一个高水平。 数据挖掘的主要问题 (1) 数据挖掘是多个学科的融合,但本课程所关注的是:海量数据的挖掘的有效性和可伸缩性 本课程中所要涵盖的主要数据挖掘问题包括:
您可能关注的文档
- 数据库系统课件第七章数据库设计幻灯片.ppt
- 排除重复4春到梅花山幻灯片.ppt
- 数据库系统课件第三章SQL幻灯片.ppt
- 排除重复4顶碗少年精品课件一幻灯片.ppt
- 数据库系统课件第十一章并发控制幻灯片.ppt
- 实变函数论课件10课件幻灯片.ppt
- 排除重复4古诗二首幻灯片.ppt
- 实变函数论课件11课件幻灯片.ppt
- 数据库系统课件第十章数据库恢复技术幻灯片.ppt
- 排除重复4古诗两首春晓精品课件一幻灯片.ppt
- AIDC系列(二):电能质量———数据中心的必备“维生素”.docx
- 专题 8 读后续写20篇【考题猜想】-2024-2025学年高一英语上学期期末考点大串讲(外研版2019)(原卷版).docx
- 重要历史常识梳理.docx
- 重要历史常识梳理.pdf
- 七~九年级古诗理解性默写整理(上).docx
- 生理学思政教学设计健康筑基思政育才专业名称高职护理镇江市高等专科学校张艳课件.pptx
- 携手同心共育英才第二学期家长会课件.pptx
- 护理营养不良.pptx
- 2025年AI编程发展前景及国内外AI编程应用发展现状分析报告.docx
- 考点05 图(表)文转换-备战2025年高考语文一轮复习考点帮(天津专用)(原卷版).pdf
文档评论(0)