网站大量收购闲置独家精品文档,联系QQ:2885784924

chap1-数据挖掘介绍.ppt

  1. 1、本文档共82页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
chap1-数据挖掘介绍.ppt

聚类:应用2 离群点分析 离群点分析 离群点:一些与数据的一般行为或模型不一致的孤立数据 通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。 离群点识别 使用统计试验检测。假定一个数据分布或概率分布,使用距离进行度量,到其他各个簇距离很大的对象被视为离群点; 基于偏差的方法。考察一群对象主要特征上的差别来识别。 应用 信用卡欺诈检测 移动电话欺诈检测 客户划分 医疗分析(异常) 演变分析 描述行为随时间变化的对象的发展规律或趋势,并对其建模。 将特征化、区分、关联、分类、聚类等技术应用于时间相关数据 一些演变分析的热点 时间序列数据分析:即预测,通过对大量时间序列数据的分析找到特定的规则和感兴趣的特性,目的对未来的情况作出估计。 序列或周期模式:用某时间点发现的产品购买或其他行为模式来预测将来购买产品或者服务类别的概率。 基于相似性的数据分析 目录 为什么要进行数据挖掘 1 什么是数据挖掘 2 对何种数据进行数据挖掘 3 数据挖掘的主要功能 4 * * 使用什么技术进行数据挖掘 5 数据挖掘与其他科学的关系 数据挖掘作为一门新兴的交叉学科,涉及数据库系统、数据仓库、统计学、机器学习、可视化、信息检索和高性能计算等诸多领域。 此外,还与神经网络、模式识别、空间数据分析、图像处理、信号处理、概率论、图论和归纳逻辑等等领域关系密切。 Data Mining Database Technology Statistics Other Disciplines Information Science Machine Learning Visualization 统计学 统计学研究数据的收集、分析、解释和表示。数据挖掘中的许多算法也源于数理统计。 统计模型是一组数学函数,它们用随机变量及其概率分布刻画目标类对象的行为。例如,建立目标类的统计模型(分类),即统计模型可以是数据挖掘任务的结果;反过来,数据挖掘任务也可以建立在统计模型之上,例如,对噪声和缺失的数据值建模,帮助识别数据中的噪声和缺失值。 统计学方法可以用来验证数据挖掘结果。例如,建立分类或预测模型之后,应使用统计假设检验来验证模型,增强模型的可靠性。 机器学习 机器学习考察计算机如何基于数据学习。 监督学习:分类的同义词。学习中的监督来自训练数据集中标记的实例。 无监督学习:聚类的同义词。学习过程是无监督的,输入实例没有类标记。 半监督学习:在学习模型时,它使用标记的和未标记的实例。标记的实例用来学习类模型,而未标记的实例用来进一步改进类边界。 主动学习:让用户在学习过程中扮演主动角色。它可能要求用户(例如领域专家)对一个可能来自未标记的实例集或由学习程序合成的实例进行标记。目的是通过主动地从用户获取知识来提高模型质量。 数据库系统与数据仓库 许多数据挖掘任务都需要处理大型数据集,甚至是处理实时的快速数据流。数据挖掘可以很好的利用可伸缩的数据库技术;同时,也可以扩充已有数据库系统的能力。 新的数据库系统使用数据仓库和数据挖掘机制,建立了系统的数据分析能力。 数据挖掘与传统数据分析方法区别 (1)数据挖掘的数据源与以前相比有了显著的改变; 数据是海量的; 数据有噪声; 数据可能是非结构化的; (2)传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在一定意义上是假设驱动的;与之相反,数据挖掘在一定意义上是发现驱动的,模式都是通过大量的有哪些信誉好的足球投注网站工作从数据中自动提取出来 。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。 数据挖掘的工具 商用软件 统计软件(SAS Enterprise Miner、SPSS、Matlab) 电子表格软件(Excel) 数据库软件(SQL Server、Orcale) Intelligent Miner (IBM) ….. 开源软件 Weka RapidMiner ARMiner 商用软件 MATLAB 与Mathematica、Maple并称为三大数学软件。Matlab提供了许多数据挖掘模块 * * 商用软件 SAS(Statistics Analysis System ) 是数据挖掘产品市场上一个强劲的竞争者,提供一个能支持包括关联、聚类、决策树、神经网络和统计回归在内的数据挖掘工具。 最早是北卡罗来纳大学的两位生物统计学研究生编制,1976年成立SAS研究所,正式推出SAS软件。 SAS系统是从大型机系统发展而来,在设计上针对专门用户,操

文档评论(0)

heroliuguan + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档