- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
不平衡数据的处理
一、什么是不平衡数据?
一个病例对照研究,其中病例10人,对照990人,建立了一个Logistic回归模型,并对模型进行了内部验证,发现正确为99%,这个模型可以发到高分的杂志上然而进一步发现,改模型不管怎么预测,都得到正常的结果,所谓的99%正确,原来是建立在1个病例都发现不了的基础上
从这个例子我们可以看出,当遇到不平衡数据时,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,而使少数类样本的分类性能下降。因为这些算法大多数建立在各类数据分布平衡的假设之下,以寻求数据总体分类准确率为最大目标。
其实不平衡数据广泛存在于各个领域中,在二分类问题中尤其常见,表现为一个类(大类)所占的比例远远大于另一个类(小类),或者数据集当中一个响应变量的比例远远大于另一个。例如:一个自动产品质量检测机每天会检测工厂生产的产品,你会发现次品率是远远低于合格率的;在银行信用卡欺诈检测中,违规交易是远远少于合法交易的。
那么多大的比例叫做不平衡数据呢?在实际应用中,该比例可以达到1:100、 1:1000、甚至更大。有文献对该比例与分类性能之间的关系进行了深入的研究 , 研究结果表明很难明确地给出何种比例会降低分类器的性能,这是因为分类器的性能还与样本数和样本的可分性有关。在某些应用下,1:35的比例就会使某些分类方法无效,甚至1:10的比例也会使某些分类方法无效。
那么当碰到不平衡数据集的时候,我们该怎么处理呢?本文就将向大家介绍一些处理不平衡数据的方法,但在具体方法介绍前,先向大家介绍一些可以用来评价分类器的可选度量以及ROC曲线。
二、分类器性能评价方法
1. 可选度量
表1 二类分类问题的混淆矩阵
预测的类 + - 实际的类 + True Positive(TP) False Negative(FN) - False Positive(FP) True Negative(TN)
由于准确率(Accuracy=(TP+TN)/(TP+TN+FP+FN))度量将每个类看得同等重要因此它可能不适合用来分析不平衡数据。我们可以考虑以下度量:
1) 精度(Precision)
分类器预测为正类的那部分观测中实际为正类的观测所占的比例,精度越高,分类器的假正类错误率就越低:p=TP/(TP+FP)
2) 召回率(recall)
被分类器正确预测为正类观测的比例,具有高召回率的分类器很少将正类观测误分为负类观测:r=TP/(TP+FN)
3) F1 度量
精度和召回率合并而成的一个度量,表示召回率和精度的调和均值:F1=2rp/(r+p)=2/(1/r+1/p)
2接受者操作(Receiver Operationg Characterstics, ROC)曲线
上述可选度量虽都可作为分类器的评价测度,但都只是评价了分类器的部分性能,比如,精度只针对预测为正类的那部分观测,召回率也只针对实际正类观测的分类结果。而ROC曲线是显示分类器真正率(TPR,也称灵敏度,sensitivity)和假正率(FPR,也即1-特异度,1-specificity)之间折中的一种方法。TPR=TP/(TP+FN) 等于召回率的值,FPR=FP/(TN+FP)ROC曲线上的任意一点都代表了单个分类器在一个给定分布上的表现。ROC曲线下面积(AUC)提供了评价模型平均性能的方法,如果模型是完美的,则AUC等于1,如果模型仅仅是简单的随机猜测,则AUC等于0.5,如果一个模型好于另一个模型,则它的AUC较大。
三、针对不平衡数据的处理方法 ?
现有的不平衡数据处理方法主要分两方面:
1) 数据层次的方法:欠采样、过采样、混合采样
2) 算法层次的方法:代价敏感学习、基于Boosting的集成学习。
今天,主要向大家介绍4中处理方法,包括:欠采样法、过采样法、人工数据合成法、以及代价敏感学习法。
1. 欠采样法
主要应用于大规模数据情况下的不平衡数据分类,并对其中的大类进行处理,减少大类观测数来使数据集平衡,因为它降低了训练样本量,所以有助于减少时间、存储开销。最简单的方法是通过随机地删除一部分大类的观测直至数据平衡,缺点是丢失大类的一些重要信息,不能充分利用已有信息。考虑到随机欠采样法的这个缺点,人们提出一类有信息的欠采样法,包括:简易集成算法(EasyEnsemble)和平衡级联算法(BalanceCascade)。
简易集成算法(EasyEnsemble):从大类中有放回的随机采样n次,每次选取与小类观测数目近似的样本,那么可以得到n个样本集合记作{S1,S2,...,Sn},然后其中的每一份与小类样本结合组成n个训练样本{D1,D2,...,Dn},每一个训练集上得到一个模型,最后取多数分类器的分类结果为预测结果。
平衡级联
您可能关注的文档
- 2015年临床执业医师考试大纲-《女性生殖系统》.docx
- 2015年中西医结合助理医师技能操作考试真题.docx
- 2015年中医执业医师考试大纲诊断学基础.docx
- 2015年心理咨询师高频考点题含解析答案(四).docx
- 2015优护实施方案修改版.docx
- 2016 年度河北省医师定期考核试题答案.docx
- 2016.1.16护士执业上.docx
- 2016.1.18护士执业下.docx
- 2016.1.19护士执业上.docx
- 2016.2.19护士执业下.docx
- 人教版九年级英语全一册单元速记•巧练Unit13【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit9【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit11【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit14【单元测试·提升卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit8【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit4【单元测试·提升卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit13【单元测试·基础卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit7【速记清单】(原卷版+解析).docx
- 苏教版五年级上册数学分层作业设计 2.2 三角形的面积(附答案).docx
- 人教版九年级英语全一册单元速记•巧练Unit12【单元测试·基础卷】(原卷版+解析).docx
文档评论(0)