- 1、本文档共12页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
?/lihaifeng555/article/details/4543752异常点检测算法分析与选择分类:?/lihaifeng555/article/category/577117数据仓库及数据挖掘2009-09-11 17:27?3026人阅读?/lihaifeng555/article/details/4543752评论(0)?javascript:void(0);收藏?/lihaifeng555/article/details/4543752举报/tag/details.html?tag=%e7%ae%97%e6%b3%95算法/tag/details.html?tag=%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98数据挖掘/tag/details.html?tag=%e4%ba%a7%e5%93%81产品/tag/details.html?tag=%e6%95%b0%e6%8d%ae%e5%ba%93数据库/tag/details.html?tag=%e5%b7%a5%e4%bd%9c工作/tag/details.html?tag=%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90数据分析目录/lihaifeng555/article/details/4543752(?)/lihaifeng555/article/details/4543752[+]1.1?常见异常点检测算法在数据库中包含着少数的数据对象,它们与数据的一般行为或特征不一致,这些数据对象叫做异常点?(Outlier)?,也叫做孤立点。异常点的检测和分析是一种十分重要的数据挖掘类型,被称之为异常点挖掘?[28?]?。对于异常数据的挖掘主要是使用偏差检测,在数学意义上,偏差是指分类中的反常实例、不满足规则的特例,或者观测结果与模型预测值不一致并随时间的变化的值等等。偏差检测的基本目标是寻找观测结果与参照值之间有意义的差别,主要的偏差技术有聚类、序列异常、最近邻居法、多维数据分析等。除了识别异常数据外,异常数据挖掘还致力于寻找异常数据间隐含模型,用于智能化的分析预测。对于异常数据分析方法的研究是论文的重要内容之一,通过研究异常数据,找到适合出口企业产品质量深入分析和有效监管的方法和策略。1.1.1?基于统计的异常点检测算法从?20?世纪?80?年代起,异常检测问题就在统计学领域里得到广泛研究,通常用户用某个统计分布对数据点进行建模,再以假定的模型,根据点的分布来确定是否异常。许许多多针对不同分布的异常测试?(Discordancy Test)方法发展起来,它们分别适用于不同的情形:①数据分布状况;②数据分布参数是否已知;③异常数据数量;④异常数据类型?(?高于或低于一般抽样值?)?。这方面比较有代表性的有?1967?年?Mikey?,?Dunn Clark?提出的基于“均数漂移”模型的单点诊断量,?1970?年?Gentleman Wilk?提出的群组诊断量,?1972?年?Tietjen Moore?提出的单样本?k?个离群点的统计量?E?k?,?1985?年?Marasinghe?提出的改进的?E?k?统计量?F?k?,?1989?年?Rosner?提出的单样本多个离群检测算法?ESD(Generalized Extreme Studentized Deviate)?方法,?1991?年?Paul Fung?改进了?ESD?方法参数?k?选择的主观性,提出了回归分析的?GESR (Generalized Extreme Studentized DeviateResi2dual)?方法。近年来,多样本的离群检测方法也得到了一定的发展,总的思路是先尽量得到一个不含离群点的“干净集”,然后在此基础上对剩余的其他数据点进行逐步离群检测?[29?]?。目前利用统计学研究异常点数据有了一些新的方法,如通过分析统计数据的散度情况,即数据变异指标,来对数据的总体特征有更进一步的了解,对数据的分布情况有所了解,进而通过数据变异指标来发现数据中的异常点数据。常用的数据变异指标有极差、四分位数间距、均差、标准差、变异系数等等,变异指标的值大表示变异大、散布广;值小表示离差小,较密集。基于统计的方法检测出来的离群点很可能被不同的分布模型检测出来,可以说产生这些离群点的机制可能不唯一,解释离群点的意义时经常发生多义性,这是基于统计方法的一个缺陷。其次,基于统计的方法在很大程度上依赖于待挖掘的数据集是否满足某种概率分布模型,模型的参数、离群点的数目等对基于统计的方法都有非常重要的意义,而确定这些参数通常都比较困难。为克服这一问题,一些人提出对数据集进行分布拟合,但分布拟合存在两个问题:①给出的分布可能不适合任一标准分布。②即使存在
您可能关注的文档
- 模电课程设计语音滤波器的设计.doc
- 2016年石化仓储物流行业分析报告.doc
- 模块结构图与数据流程图的区别与联系.doc
- 物流服务业标准化试点项目验收材料整理.doc
- 某110KV输电线路工程合同书.doc
- 城市停车场再设计-青岛.docx
- 某地税局业务技能比武试题以及答案解析.doc
- 物流管理专业培养质量分析报告.doc
- 2016年数学建模C题优秀论文新.doc
- 物流学概论-章节习题及答案.doc
- 中考语文总复习语文知识及应用专题5仿写修辞含句子理解市赛课公开课一等奖省课获奖课件.pptx
- 湖南文艺版(2024)新教材一年级音乐下册第二课《藏猫猫》精品课件.pptx
- 湖南文艺版(2024)新教材一年级音乐下册第三课《我向国旗敬个礼》精品课件.pptx
- 高中生物第四章生物的变异本章知识体系构建全国公开课一等奖百校联赛微课赛课特等奖课件.pptx
- 整数指数幂市公开课一等奖省赛课微课金奖课件.pptx
- 一年级音乐上册第二单元你早全国公开课一等奖百校联赛微课赛课特等奖课件.pptx
- 八年级数学上册第二章实数27二次根式第四课时习题省公开课一等奖新课获奖课件.pptx
- 九年级物理全册11简单电路习题全国公开课一等奖百校联赛微课赛课特等奖课件.pptx
- 八年级语文下册第五单元19邹忌讽齐王纳谏省公开课一等奖新课获奖课件.pptx
- 2024年秋季新人教PEP版3年级上册英语全册教学课件 (2).pptx
最近下载
- 高考中立体几何问题的热点题型.pptx
- 大班美术《青花瓷盘》.pptx VIP
- 2025年山东力明科技职业学院高职单招高职单招英语2016-2024历年频考点试题含答案解析.docx
- 钢铁冶金概论全套课件.ppt
- 2024年宁夏银川中考物理试题及答案.doc VIP
- 人教(2024)新教材下册(教学计划)- 七年级地理下册(人教版2024).docx
- 辽宁省丹东七中七年级英语下册《Unit 10 Where did you go on vacation》教案 人教新目标版.doc VIP
- 智能建造体系机器人介绍.pptx
- 2024年宁夏银川中考英语试题及答案.doc VIP
- HJ694-2014-水质-砷的测定--方法验证报告.pdf VIP
文档评论(0)