聚类分析孤立点分析.pptx

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
会计学 1 聚类分析孤立点分析 2 孤立点分析 什么是孤立点? 对象的集合, 它们与数据的其它部分不一致 孤立点可能是度量或执行错误所导致的 孤立点也可能是固有的数据变异性的结果 问题 给定一个n个数据点或对象的集合, 及预期的孤立点的数目k, 发现与剩余的数据相比是相异的, 例外的, 或不一致的前k个对象 两个子问题: 定义在给定的数据集合中什么样的数据可以被认为是不一致的 找到一个有效的方法来挖掘这样的孤立点 第1页/共29页 3 孤立点分析 应用: 信用卡欺诈检测 电信欺诈检测 顾客分割: 确定极低或极高收入的客户的消费行为 医疗分析: 发现对多种治疗方式的不寻常的反应 孤立点的定义是非平凡的 如果采用一个回归模型, 余量的分析可以给出对数据“极端”的很好的估计 当在时间序列数据中寻找孤立点时, 它们可能隐藏在趋势的, 周期性的, 或者其他循环变化中, 这项任务非常棘手 当分析多维数据时, 不是任何特别的一个, 而是维值的组合可能是极端的. 对于非数值型的数据(如分类数据), 孤立点的定义要求特殊的考虑 第2页/共29页 4 孤立点分析 采用数据可视化方法来进行孤立点探测如何? 不适用于包含周期性曲线的数据 对于探测有很多分类属性的数据, 或高维数据中的孤立点效率很低 方法 统计学方法 基于距离的方法 基于密度的方法 第3页/共29页 5 基于统计学的孤立点检测 对给定的数据集合假设了一个分布或概率模型(例如, 正态分布), 然后根据模型采用不一致性检验(discordancy test)来确定孤立点 检验要求的参数 数据集参数: 例如, 假设的数据分布 分布参数: 例如平均值和方差 和预期的孤立点的数目 统计学的不一致性检验需要检查的两个假设 工作假设(working hypothesis) 替代假设(alternative hypothesis) 第4页/共29页 6 基于统计学的孤立点检测 工作假设H是一个命题:n个对象的整个数据集合来自一个初始的分布模型F, 即 H:Oi ∈F,i =1, 2, …, n 不一致性检验验证一个对象Oi关于分布F是否显著地大(或者小) 依据关于数据的可用知识, 已提出不同的统计量用于不一致性检验 假设某个统计量被选择用于不一致性检验, 对象Oi的该统计量的值为Vi, 则构建分布T 估算显著性概率SP(Vi)=Prob(TVi) 如果某个SP(Vi)是足够的小, 那么Oi是不一致的, 工作假设被拒绝. 替代假设被采用, 它声明Oi来自于另一个分布模型G 第5页/共29页 7 检测一元正态分布中的离群点 第6页/共29页 8 检测一元正态分布中的离群点 若考察的属性服从正态分布,可以用属性的出现概率确定是否离群点.出现概率低于一个阈值,就可以认为该属性是一个离群点.确定的方法由下面定义: 第7页/共29页 9 检测一元正态分布中的离群点 出现概率在2.5%左边或者右边的属性都可以作为离群点,因为概率小于给定的阈. 第8页/共29页 10 检测二元正态分布中的离群点 第9页/共29页 11 用mahalanobis距离来衡量是否离群点,距离超过一个阈值就是离群点. 第10页/共29页 12 检测二元正态分布中的离群点 第11页/共29页 13 检测二元正态分布中的离群点 若A、B的距离超过一个阈值,它们就是离群点。 A的Mahalanobis距离比B大,证明A离中心点更远. 第12页/共29页 14 基于统计学的孤立点检测 结果非常依赖于模型F的选择 Oi可能在一个模型下是孤立点, 在另一个模型下是非常有效的值 替代分布在决定检验的能力上是非常重要的 不同的替代分布 固有的替代分布(inherent alternative distribution):所有对象来自分布F的工作假设被拒绝, 而所有对象来自另一个分布G的替代假设被接受 混合替代分布(mixture alternative distribution):不一致的值不是F分布中的孤立点, 而是来自其他分布的污染物 滑动替代分布(slippage alternative distribution):所有的对象( 除了少量外)根据给定的参数, 独立地来自初始的模型F,而剩余的对象是来自修改过的F的独立的观察 第13页/共29页 15 基于统计学的孤立点检测 检测孤立点有两类基本的过程 批(block)过程: 或者所有被怀疑的对象都被作为孤立点对待, 或者都被作为一致数据而接受 连续的过程: 该过程的一个例子是内部出局(inside-out)过程 主要思想 首先检验最不可能是孤立点的对象. 如果它是孤立点, 那么所有更极端的值都被认为是孤立点;否则, 检验下一个极端的对象, 依次类推

文档评论(0)

kuailelaifenxian + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体太仓市沙溪镇牛文库商务信息咨询服务部
IP属地上海
统一社会信用代码/组织机构代码
92320585MA1WRHUU8N

1亿VIP精品文档

相关文档