网站大量收购闲置独家精品文档,联系QQ:2885784924

离群点分析.pptVIP

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
离群点分析ppt课件

Page ? * 离群点分析 主要内容 离群点简介 1.什么是离群点? 在样本空间中,与其他样本点的一般行为或特征不一致的点,我们称为离群点 2.离群点的来源 ①数据来源于异类,如欺诈、入侵、不寻常的实验结果等 ②数据变量固有变化引起,如顾客的新的购买模式、基因突变等 ③数据测量和收集误差 3.为什么要进行离群点检测? “一个人的噪声也许是其他人的信号” 离群点简介 4.离群点检测中的困难 1)在时间序列样本中发现离群点一般比较困难,因为这些离群点可能会隐藏在趋势、季节性或者其他变化中; 2)对于维度为非数值型的样本,在检测过程中需要多加考虑,比如对维度进行预处理等; 3)针对多维数据,离群点的异常特征可能是多维度的组合,而不是单一维度就能体现的。 5.离群点检测的主要应用领域 入侵检测 欺诈检测 医疗 公共卫生 生态系统 四种常见的离群点检测方法 四种常见的离群点检测方法 一.基于统计的离群点检测 离群点的概率定义:离群点是一个对象,关于数据的概率分布模型,它具有低概率。 基于统计的离群点检测的思路 四种常见的离群点检测方法 不和谐检验的两个过程:工作假设、备择假设 如果某个样本点不符合工作假设,那么我们认为它是离群点。如果它符合备选假设,我们认为它是符合某一备选假设分布的离群点。 实例: 例如我们设儿童上学的具体年龄总体服从正态分布,所给的数据集是某地区随机选取的开始上学的20名儿童的年龄具体的年龄特征如下: 年龄={6,7,6,8,9,10,8,11,7,9,12,7,11,8,13,7,8,14,9,12} 那么.相应的统计参数是:均值=9.1; 标准差=2.3。 如果选择数据分布的阈值为:阈值=均值±2×标准差 故在[4.5 ,13.7]区间以外的数据都是潜在的离群点, 将最大值取整为13。所以年龄为14的孩子可能是个例外。而且由均值可知,此地的 孩子普遍上学较晚.教育部门以后可据此作一些政策上的改进。 四种常见的离群点检测方法 基于统计的离群点检测的优缺点 四种常见的离群点检测方法 二.基于距离的离群点检测 基于距离的离群点定义: 如果数据集合D中,对象至少有pct部分与对象o的距离大于dmin,则称对象o是以pct和dmin为参数的基于距离的离群点。即DB(pct,dmin)离群点 三种有效的挖掘基于距离的离群点检测的算法: (1)基于索引的算法 (2)嵌套循环算法 (3)基于单元的算法 四种常见的离群点检测方法 基于距离和(distance sum-based, DS)检测算法: 与DB (p, d)孤立点一样,DS孤立点挖掘算法使用同样的距离公式,如绝对距离或欧式距离,但不根据p和d来判定孤立点,而是先计算数据对象两两之间的距离,再计算每个对象与其他对象的距离之和。 设M为用户期望的孤立点个数,则距离之和最大的前M个对象即为要挖掘的孤立点,这样可消除用户设置参数p和d的需要。 四种常见的离群点检测方法 案例:孤立点挖掘在高等学校科技统计数据分析中的应用 孤立点实验数据源:(选自全国普通高等学校科技统计数据上报基表中的数据) 甘肃省2010年科技统计上报数据中的一所高校数据 对基表中的数据,如选取科技人员职称和学历作为最终测试对象,因职称只有院士、正高、副高、讲师、助教和其它职称共六种职称,而学历只有高中以下、中专、大专、本科、硕士和博士共六种职称,职称和学历跨度小,检测出来的孤立点孤立程度相对较低,故选取跨度较大的出生年月作为测试对象。选取三个指标:出生年月、学位和职称作为检测属性。 四种常见的离群点检测方法 实验及结果分析 用DS算法时,取M=20,算法返回距离的值最大的20个教师信息如表1所示。 通过分析,可以发现孤立点数据中存在两种典型的孤立点类别: (1)孤立点数据远远偏离于正常值的范围 序号1-4 (噪声) (2)孤立点数据偏离于正常值的范围 可能是录入错误,可能是真实数据 序号 出生年月 学历 职称 1 198907 大学本科 正高级 2 198510 硕士研究生 副高级 3 196008 博士研究生 初级 4 197909 专科 副高级 5 196002 博士研究生 中级 6 195511 博士研究生 副高级 7 198109 硕士研究生 副高级 8 197408 博士研究生 初级 9 198109 硕士研究生

文档评论(0)

118books + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档