- 1、本文档共93页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘与
第一章 绪论
为什么要挖掘数据?
大量数据被收集,存储在数据库\数据仓库中
竞争压力越来越大
计算机越来越便宜,功能越来越强大
数据以极快的速度收集和存储 (GB/hour)
传统的技术难以处理这些原始数据
常常有些信息“隐藏”在数据中, 并非显而易见的
人分析需要数周\数月, 才能发现有用的信息
许多数据根本未曾分析过
挖掘大型数据集:动机
什么是数据挖掘
许多不同定义
本书定义
在大型数据存储库中,自动地发现有用信息的过程。
Exploration analysis, by automatic or semi-automatic means, of large quantities of data in order to discover meaningful patterns
Jiawei Han的定义
从大型数据集中提取有趣的 (非平凡的, 蕴涵的, 先前未知的并且是潜在有用的) 信息或模式
数据挖掘技术的定义
定义:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们事先不知道的、但又是潜在有用的信息和知识的过程.
定义所包含的意义:
—数据源必须是真实的、大量的、含噪声的;
—发现的是用户感兴趣的知识;
—发现的知识要可接受、可理解、可运用;
—这些知识是相对的,是有特定前提和约束条件的,在特定领域中具有实际应用价值.
2017年3月25日星期六
数据挖掘导论
6
数据挖掘与KDD
数据挖掘与知识发现
数据挖掘是数据库中知识发现(knowledge discovery in database, KDD)不可缺少的一部分
KDD是将未加工的数据转换为有用信息的整个过程
2017年3月25日星期六
数据挖掘导论
7
引发数据挖掘的挑战1
可伸缩
海量数据集越来越普遍
数千兆字节(terabytes)
为处理海量数据,算法必须是可伸缩的(scalable)
可伸缩可能还需要新的数据结构,以有效的方式访问个别记录
例如,当要处理的数据不能放进内存时,可能需要非内存算法
使用抽样技术或开发并行和分布算法也可以提高可伸缩程度
2017年3月25日星期六
数据挖掘导论
8
挑战2
高维性
具有数以百计或数以千计属性的数据集
生物信息学:涉及数千特征的基因表达数据
不同地区温度测量:如果在一个相当长的时间周期内进行测量,维度(特征数)的增长正比于测量的次数
为低维数据开发的数据分析技术不能很好地处理高维数据
某些数据分析算法,随着维度(特征数)的增加,计算复杂性迅速增加
2017年3月25日星期六
数据挖掘导论
9
挑战3
异种数据和复杂数据
传统的数据分析方法只处理包含相同类型属性的数据集
非传统的数据类型的出现需要能够处理异种属性的技术
半结构化文本和超链接的Web页面集
具有序列和三维结构的DNA数据
地球表面不同位置上的时间序列测量值(温度、气压等)的气象数据
数据中的联系
如时间和空间的自相关性、图的连通性、半结构化文本和XML文
档中元素之间的父子联系
2017年3月25日星期六
数据挖掘导论
10
挑战4
数据的所有权与分布
数据地理上分布在属于多个机构的资源中
需要开发分布式数据挖掘技术
分布式数据挖掘算法面临的主要挑战包括
(1) 如何降低执行分布式计算所需的通信量?
(2) 如何有效地统一从多个资源得到的数据挖掘结果?
(3) 如何处理数据安全性问题?
2017年3月25日星期六
数据挖掘导论
11
挑战5
非传统的分析
传统的统计学方法:假设-检验模式
提出一种假设,设计实验来收集数据,然后针对假设分析数据
当前的数据分析任务常常需要产生和评估数以千计的假设
希望自动地产生和评估假设导致了一些数据挖掘技术的开发
数据挖掘所分析的数据集通常不是精心设计的实验的结果
代表数据的时机性样本(opportunistic sample)而不是随机样本(random sample)
数据集常常涉及非传统的数据类型和数据分布
2017年3月25日星期六
数据挖掘导论
12
数据挖掘的起源
数据挖掘是多学科交叉领域
利用了来自如下一些领域的思想:
统计学的抽样、估计和假设检验
人工智能、模式识别和机器学习的有哪些信誉好的足球投注网站算法、建模技术和学习理论
数据库系统提供有效的存储、索引和查询处理支持
分布式技术也能帮助处理海量数据
最优化、进化计算、信息论、信号处理、可视化和信息检索
2017年3月25日星期六
数据挖掘导论
13
数据挖掘任务
预测vs.描述
预测(Prediction)
根据其他属性的值,预测特定属性的值
描述(Description)
导出概括数据中潜在联系的模式
数据挖掘任务
预测建模
文档评论(0)