数据挖掘与.pptx

  1. 1、本文档共93页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘与

第一章 绪论 为什么要挖掘数据? 大量数据被收集,存储在数据库\数据仓库中 竞争压力越来越大 计算机越来越便宜,功能越来越强大 数据以极快的速度收集和存储 (GB/hour) 传统的技术难以处理这些原始数据 常常有些信息“隐藏”在数据中, 并非显而易见的 人分析需要数周\数月, 才能发现有用的信息 许多数据根本未曾分析过 挖掘大型数据集:动机 什么是数据挖掘 许多不同定义 本书定义 在大型数据存储库中,自动地发现有用信息的过程。 Exploration analysis, by automatic or semi-automatic means, of large quantities of data in order to discover meaningful patterns Jiawei Han的定义 从大型数据集中提取有趣的 (非平凡的, 蕴涵的, 先前未知的并且是潜在有用的) 信息或模式 数据挖掘技术的定义 定义:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们事先不知道的、但又是潜在有用的信息和知识的过程. 定义所包含的意义: —数据源必须是真实的、大量的、含噪声的; —发现的是用户感兴趣的知识; —发现的知识要可接受、可理解、可运用; —这些知识是相对的,是有特定前提和约束条件的,在特定领域中具有实际应用价值. 2017年3月25日星期六 数据挖掘导论 6 数据挖掘与KDD 数据挖掘与知识发现 数据挖掘是数据库中知识发现(knowledge discovery in database, KDD)不可缺少的一部分 KDD是将未加工的数据转换为有用信息的整个过程 2017年3月25日星期六 数据挖掘导论 7 引发数据挖掘的挑战1 可伸缩 海量数据集越来越普遍 数千兆字节(terabytes) 为处理海量数据,算法必须是可伸缩的(scalable) 可伸缩可能还需要新的数据结构,以有效的方式访问个别记录 例如,当要处理的数据不能放进内存时,可能需要非内存算法 使用抽样技术或开发并行和分布算法也可以提高可伸缩程度 2017年3月25日星期六 数据挖掘导论 8 挑战2 高维性 具有数以百计或数以千计属性的数据集 生物信息学:涉及数千特征的基因表达数据 不同地区温度测量:如果在一个相当长的时间周期内进行测量,维度(特征数)的增长正比于测量的次数 为低维数据开发的数据分析技术不能很好地处理高维数据 某些数据分析算法,随着维度(特征数)的增加,计算复杂性迅速增加 2017年3月25日星期六 数据挖掘导论 9 挑战3 异种数据和复杂数据 传统的数据分析方法只处理包含相同类型属性的数据集 非传统的数据类型的出现需要能够处理异种属性的技术 半结构化文本和超链接的Web页面集 具有序列和三维结构的DNA数据 地球表面不同位置上的时间序列测量值(温度、气压等)的气象数据 数据中的联系 如时间和空间的自相关性、图的连通性、半结构化文本和XML文 档中元素之间的父子联系 2017年3月25日星期六 数据挖掘导论 10 挑战4 数据的所有权与分布 数据地理上分布在属于多个机构的资源中 需要开发分布式数据挖掘技术 分布式数据挖掘算法面临的主要挑战包括 (1) 如何降低执行分布式计算所需的通信量? (2) 如何有效地统一从多个资源得到的数据挖掘结果? (3) 如何处理数据安全性问题? 2017年3月25日星期六 数据挖掘导论 11 挑战5 非传统的分析 传统的统计学方法:假设-检验模式 提出一种假设,设计实验来收集数据,然后针对假设分析数据 当前的数据分析任务常常需要产生和评估数以千计的假设 希望自动地产生和评估假设导致了一些数据挖掘技术的开发 数据挖掘所分析的数据集通常不是精心设计的实验的结果 代表数据的时机性样本(opportunistic sample)而不是随机样本(random sample) 数据集常常涉及非传统的数据类型和数据分布 2017年3月25日星期六 数据挖掘导论 12 数据挖掘的起源 数据挖掘是多学科交叉领域 利用了来自如下一些领域的思想: 统计学的抽样、估计和假设检验 人工智能、模式识别和机器学习的有哪些信誉好的足球投注网站算法、建模技术和学习理论 数据库系统提供有效的存储、索引和查询处理支持 分布式技术也能帮助处理海量数据 最优化、进化计算、信息论、信号处理、可视化和信息检索 2017年3月25日星期六 数据挖掘导论 13 数据挖掘任务 预测vs.描述 预测(Prediction) 根据其他属性的值,预测特定属性的值 描述(Description) 导出概括数据中潜在联系的模式 数据挖掘任务 预测建模

文档评论(0)

taotao0c + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档