- 1、本文档共29页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Clementine 筛选模型
算法: Step 1 - Modeling 使训练数据格式化 若不处理缺失值,则在任意变量上有缺失值的样本将被剔除 处理缺失值:连续变量以均值替代缺失值;分类变量把缺失值看成一个有效组 two-step聚类,用于确定每个样本所在的类,根据输入变量的相似性. 对于连续变量,计算每类的均值和标准差;对于分类变量,计算每类的频数分布表. 算法: Step 2 - Scoring 对每个样本计算variable deviation index(VDI): 度量每个样本点到其类标准(cluster norm)的距离. 对连续变量则类标准为样本均值,分类变量则为众数. 计算每个样本的Group Deviation Index (GDI), 即对数似然距离(Log-Likelihood Distance), 每个样本的k个VDI之和. 算法: Step 3 - Reasoning 对所有样本按异常指数排序,异常指数越大越有可能是异常点. 一般认为,异常指数小于1或小于1.5,则不是异常点;异常指数大于2 ,则为异常点. 对每个异常样本, 按其VDI降序排序, 对应的前k个变量是该样本被视为异常值的主要原因. Clementine: 模型选项 训练数据集中异常点占的比例(Percentage of most anomalous records in the training data): 注意这个比例是为了确定临界值, 实际异常点比例可能未必与指定值相等, 而是因数据而异 训练集中异常点的数目(Number of most anomalous records in the training data): 同样, 指定的异常点数目也是为了确定临界值, 实际的异常点个数因数据而异 Clementine: 高级选项 指定同类组的数目(Specify number of peer groups): 数目(Number):设定类别的数目。 噪声值(Noise level):决定在聚类过程中哪些值视为离群值,范围在0~0.5之间。 噪声比率(Noise ratio):在噪声缓冲器中内存的分配比率,范围在0~0.5之间。 Clementine: 高级选项 处理缺失值 Impute missing values对于数值型字段, 用均值代替任何缺失值; 分类字段, 合并缺失类并作为有效类对待.若不选该项, 则任何有缺失值的记录都不参与分析. 4. 模型结果分析 在model标签中显示聚类和异常检测的结果。此外还得到数值型变量的均值和标准差,分类变量的离散值比例等结果。 统计分析、数据挖掘与商业智能应用研究小组 统计分析、数据挖掘与商业智能应用研究小组 Clementine筛选模型 报告人: 薛 婷 指导教师:谢邦昌 日期:2007年11月19日 —— Anomaly Detection 异常检测 简介 异常检测的建模方法用于发现数据中的离群值或其他异常现象. 通常是数据预处理的一部分. 与其他建模方法不同,不针对异常现象制定一些规则,而是记录正常值的特征信息,这使得它能有效识别那些不符合任何已知模式的异常值。 常用于实际应用中,如识别欺诈行为,因为新的欺诈模式不断出现。 异常检测方法是一种无监督学习,即不需要包含异常现象的训练数据集作为起点。 分析思路 异常检测主要寻找在实质上与其他对象不同的异常值,该技术本身不受异常值来源的影响. 异常检测不是从一两个变量出发去发现异常点,而是从全面综合角度,通过判断每个记录离同组其他记录的距离远近来诊断异常点: 离组中心越远的记录,越可能是异常的. 算法: Step 2 - Scoring 计算每个样本的异常指数(Anomaly Index): 某个样本的GDI与其所在组的组平均GDI进行比较. 计算变量k对样本s异常的贡献(variable contribution measure) 说明 异常检测是一种探索性方法 可快速识别异常值; 为后续异常点分析提供候选的疑似异常值,但并非一定是异常点. 异常检测对异常点的诊断是不针对目标变量的,不考虑与想要预测的模式是否有关 可以与Feature Selection或其他筛选方法相结合. 如, 用Feature Selection来识别与特定目标相关的重要输入变量范围, 然后用异常检测寻找关于这些范围的异常点. 这样寻找的异常点可能更利于后续研究 Clementine: Anomaly模块 Anomaly Detection模块位于在Clementine的选项板区 (Palettes) 的Modeling中 双击Anomaly图标, 在数据流区域 (Stream canvas)建立一个Anomaly节点 双击Anomaly节点可以打开选
您可能关注的文档
最近下载
- 2023年高考真题——生物(河北卷)含答案.docx VIP
- 2022年高考地理:水文水系水能 主观题答题思路答题模板汇编(实用,必备!).docx
- 部编版语文一年级上册生字笔顺汇总分享.docx VIP
- 虽有嘉肴(解析版)-2024年中考语文之文言文对比阅读(全国通用).pdf VIP
- 《祝福》pptx课件(44页)完整版.pptx
- 《雷雨》优秀ppt课件---高中语文课件.ppt
- 全国I卷读后续写讲评课件 -2023届高三英语一轮复习.ppt VIP
- 《国家公务员制度》(舒放)第18章.pptx VIP
- 《国家公务员制度》(舒放)第17章.pptx VIP
- 2022年高考河北卷生物试题(含答案解析).pdf VIP
文档评论(0)