- 1、本文档共29页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
会计学
1
聚类分析孤立点分析
2
孤立点分析
什么是孤立点?
对象的集合, 它们与数据的其它部分不一致
孤立点可能是度量或执行错误所导致的
孤立点也可能是固有的数据变异性的结果
问题
给定一个n个数据点或对象的集合, 及预期的孤立点的数目k, 发现与剩余的数据相比是相异的, 例外的, 或不一致的前k个对象
两个子问题:
定义在给定的数据集合中什么样的数据可以被认为是不一致的
找到一个有效的方法来挖掘这样的孤立点
第1页/共29页
3
孤立点分析
应用:
信用卡欺诈检测
电信欺诈检测
顾客分割: 确定极低或极高收入的客户的消费行为
医疗分析: 发现对多种治疗方式的不寻常的反应
孤立点的定义是非平凡的
如果采用一个回归模型, 余量的分析可以给出对数据“极端”的很好的估计
当在时间序列数据中寻找孤立点时, 它们可能隐藏在趋势的, 周期性的, 或者其他循环变化中, 这项任务非常棘手
当分析多维数据时, 不是任何特别的一个, 而是维值的组合可能是极端的. 对于非数值型的数据(如分类数据), 孤立点的定义要求特殊的考虑
第2页/共29页
4
孤立点分析
采用数据可视化方法来进行孤立点探测如何?
不适用于包含周期性曲线的数据
对于探测有很多分类属性的数据, 或高维数据中的孤立点效率很低
方法
统计学方法
基于距离的方法
基于密度的方法
第3页/共29页
5
基于统计学的孤立点检测
对给定的数据集合假设了一个分布或概率模型(例如, 正态分布), 然后根据模型采用不一致性检验(discordancy test)来确定孤立点
检验要求的参数
数据集参数: 例如, 假设的数据分布
分布参数: 例如平均值和方差
和预期的孤立点的数目
统计学的不一致性检验需要检查的两个假设
工作假设(working hypothesis)
替代假设(alternative hypothesis)
第4页/共29页
6
基于统计学的孤立点检测
工作假设H是一个命题:n个对象的整个数据集合来自一个初始的分布模型F,
即 H:Oi ∈F,i =1, 2, …, n
不一致性检验验证一个对象Oi关于分布F是否显著地大(或者小)
依据关于数据的可用知识, 已提出不同的统计量用于不一致性检验
假设某个统计量被选择用于不一致性检验, 对象Oi的该统计量的值为Vi, 则构建分布T
估算显著性概率SP(Vi)=Prob(TVi)
如果某个SP(Vi)是足够的小, 那么Oi是不一致的, 工作假设被拒绝. 替代假设被采用, 它声明Oi来自于另一个分布模型G
第5页/共29页
7
检测一元正态分布中的离群点
第6页/共29页
8
检测一元正态分布中的离群点
若考察的属性服从正态分布,可以用属性的出现概率确定是否离群点.出现概率低于一个阈值,就可以认为该属性是一个离群点.确定的方法由下面定义:
第7页/共29页
9
检测一元正态分布中的离群点
出现概率在2.5%左边或者右边的属性都可以作为离群点,因为概率小于给定的阈.
第8页/共29页
10
检测二元正态分布中的离群点
第9页/共29页
11
用mahalanobis距离来衡量是否离群点,距离超过一个阈值就是离群点.
第10页/共29页
12
检测二元正态分布中的离群点
第11页/共29页
13
检测二元正态分布中的离群点
若A、B的距离超过一个阈值,它们就是离群点。 A的Mahalanobis距离比B大,证明A离中心点更远.
第12页/共29页
14
基于统计学的孤立点检测
结果非常依赖于模型F的选择
Oi可能在一个模型下是孤立点, 在另一个模型下是非常有效的值
替代分布在决定检验的能力上是非常重要的
不同的替代分布
固有的替代分布(inherent alternative distribution):所有对象来自分布F的工作假设被拒绝, 而所有对象来自另一个分布G的替代假设被接受
混合替代分布(mixture alternative distribution):不一致的值不是F分布中的孤立点, 而是来自其他分布的污染物
滑动替代分布(slippage alternative distribution):所有的对象( 除了少量外)根据给定的参数, 独立地来自初始的模型F,而剩余的对象是来自修改过的F的独立的观察
第13页/共29页
15
基于统计学的孤立点检测
检测孤立点有两类基本的过程
批(block)过程: 或者所有被怀疑的对象都被作为孤立点对待, 或者都被作为一致数据而接受
连续的过程:
该过程的一个例子是内部出局(inside-out)过程
主要思想
首先检验最不可能是孤立点的对象. 如果它是孤立点, 那么所有更极端的值都被认为是孤立点;否则, 检验下一个极端的对象, 依次类推
文档评论(0)