- 1、本文档共20页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
离群点分析ppt课件
Page ? * 离群点分析 主要内容 离群点简介 1.什么是离群点? 在样本空间中,与其他样本点的一般行为或特征不一致的点,我们称为离群点 2.离群点的来源 ①数据来源于异类,如欺诈、入侵、不寻常的实验结果等 ②数据变量固有变化引起,如顾客的新的购买模式、基因突变等 ③数据测量和收集误差 3.为什么要进行离群点检测? “一个人的噪声也许是其他人的信号” 离群点简介 4.离群点检测中的困难 1)在时间序列样本中发现离群点一般比较困难,因为这些离群点可能会隐藏在趋势、季节性或者其他变化中; 2)对于维度为非数值型的样本,在检测过程中需要多加考虑,比如对维度进行预处理等; 3)针对多维数据,离群点的异常特征可能是多维度的组合,而不是单一维度就能体现的。 5.离群点检测的主要应用领域 入侵检测 欺诈检测 医疗 公共卫生 生态系统 四种常见的离群点检测方法 四种常见的离群点检测方法 一.基于统计的离群点检测 离群点的概率定义:离群点是一个对象,关于数据的概率分布模型,它具有低概率。 基于统计的离群点检测的思路 四种常见的离群点检测方法 不和谐检验的两个过程:工作假设、备择假设 如果某个样本点不符合工作假设,那么我们认为它是离群点。如果它符合备选假设,我们认为它是符合某一备选假设分布的离群点。 实例: 例如我们设儿童上学的具体年龄总体服从正态分布,所给的数据集是某地区随机选取的开始上学的20名儿童的年龄具体的年龄特征如下: 年龄={6,7,6,8,9,10,8,11,7,9,12,7,11,8,13,7,8,14,9,12} 那么.相应的统计参数是:均值=9.1; 标准差=2.3。 如果选择数据分布的阈值为:阈值=均值±2×标准差 故在[4.5 ,13.7]区间以外的数据都是潜在的离群点, 将最大值取整为13。所以年龄为14的孩子可能是个例外。而且由均值可知,此地的 孩子普遍上学较晚.教育部门以后可据此作一些政策上的改进。 四种常见的离群点检测方法 基于统计的离群点检测的优缺点 四种常见的离群点检测方法 二.基于距离的离群点检测 基于距离的离群点定义: 如果数据集合D中,对象至少有pct部分与对象o的距离大于dmin,则称对象o是以pct和dmin为参数的基于距离的离群点。即DB(pct,dmin)离群点 三种有效的挖掘基于距离的离群点检测的算法: (1)基于索引的算法 (2)嵌套循环算法 (3)基于单元的算法 四种常见的离群点检测方法 基于距离和(distance sum-based, DS)检测算法: 与DB (p, d)孤立点一样,DS孤立点挖掘算法使用同样的距离公式,如绝对距离或欧式距离,但不根据p和d来判定孤立点,而是先计算数据对象两两之间的距离,再计算每个对象与其他对象的距离之和。 设M为用户期望的孤立点个数,则距离之和最大的前M个对象即为要挖掘的孤立点,这样可消除用户设置参数p和d的需要。 四种常见的离群点检测方法 案例:孤立点挖掘在高等学校科技统计数据分析中的应用 孤立点实验数据源:(选自全国普通高等学校科技统计数据上报基表中的数据) 甘肃省2010年科技统计上报数据中的一所高校数据 对基表中的数据,如选取科技人员职称和学历作为最终测试对象,因职称只有院士、正高、副高、讲师、助教和其它职称共六种职称,而学历只有高中以下、中专、大专、本科、硕士和博士共六种职称,职称和学历跨度小,检测出来的孤立点孤立程度相对较低,故选取跨度较大的出生年月作为测试对象。选取三个指标:出生年月、学位和职称作为检测属性。 四种常见的离群点检测方法 实验及结果分析 用DS算法时,取M=20,算法返回距离的值最大的20个教师信息如表1所示。 通过分析,可以发现孤立点数据中存在两种典型的孤立点类别: (1)孤立点数据远远偏离于正常值的范围 序号1-4 (噪声) (2)孤立点数据偏离于正常值的范围 可能是录入错误,可能是真实数据 序号 出生年月 学历 职称 1 198907 大学本科 正高级 2 198510 硕士研究生 副高级 3 196008 博士研究生 初级 4 197909 专科 副高级 5 196002 博士研究生 中级 6 195511 博士研究生 副高级 7 198109 硕士研究生 副高级 8 197408 博士研究生 初级 9 198109 硕士研究生
您可能关注的文档
- 电流与电路复习课件.ppt
- 电流和电路课件2.ppt
- 电焊工培训课件.ppt
- 电磁场基本方程.ppt
- 电磁学.ppt
- 电磁感应 发电机.ppt
- 电磁波.ppt
- 电磁继电器与自动控制ok.ppt
- 电脑入门 电脑系统安装步骤.ppt
- 电脑入门 电脑组装教程.ppt
- c ib文凭课程du del n paper 3生物学试卷.pdf
- labview实用工具详解功能块readme.pptx
- 高二上期中理金华一中.pdf
- 家庭使用doterra 101多特瑞.pdf
- 270 reharunner医疗系列-介绍treadmills10台跑步机.pdf
- 临床试验方案产品名称可吸收单丝缝合线产品型号pgcl 0clinical investigation report3调查报告.pdf
- ten steps to laying concrete slab铺设混凝土板十个步骤.pdf
- 工作场所空气有毒物质测定二甲基甲酰胺乙酰胺气相色谱法编制说明卫生网.pdf
- 淋巴血液系统肿瘤908o calimeri.pdf
- 从服务器上downgflip2指南.pdf
最近下载
- 附件2.安徽省老年大学(学校)建设指导标准(试行).doc
- 《职业素养》知识考试题库(含答案).docx
- DBJ33_T 1321-2024《建筑施工拉杆式悬挑脚手架安全技术规程》.pdf
- 2025年公务员考试时事政治100题及答案(含知识点).docx
- 2024年江西电力职业技术学院单招职业技能测试题库及答案(各地真题).docx VIP
- 新项目方法验证能力确认报告2023简化模板:空气质量 甲醛的测定 乙酰丙酮分光光度法GBT 15516-1995.pdf VIP
- 美的面包机食谱-官方通用版.pdf
- 抗凝剂皮下注射护理规范.pptx VIP
- 学校物业管理服务方案(精选8篇).docx VIP
- 自动控制原理(全套课件1085P).ppt
文档评论(0)