02性能评价数据的采集和组织.ppt

下载文档 降价啦

1
0
约2.33千字
约 28页
2016-12-05 发布于重庆
举报
版权申诉
保障服务

02性能评价数据的采集和组织.ppt

1、本文档共28页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

02性能评价数据的采集和组织

生物医学数据挖掘Biomedical Data Mining 回顾第一章概论四、数据挖掘性能评价评价准则：结果或模型准确性可理解性性能数据的噪声四、数据挖掘性能评价样本的组织所有样本属性已知两类样本：相互独立学习样本/训练样本集：规律的总结测试样本集：评价、检验两类样本的分组两类样本的分组随机分组法：通常：训练集(2/3)，测试集(1/3) 两类样本的分组交叉验证法：如 K折交叉验证法（一般随机分成10组）留一法：适用样本数据更少的情况举例四、数据挖掘性能评价预测型模型的性能评价残差混淆矩阵 P10 灵敏度（sensitivity）特异度（specificity）分类正确率（accuracy） ROC（receiver operating characteristics curve）曲线四、数据挖掘性能评价灵敏度特异度分类正确率灵敏度与特异度取值：均在0-1之间缺点：单独使用，可能出现矛盾解决办法：ROC曲线四、数据挖掘性能评价 ROC曲线灵敏度与特异度间的平衡(trade off) 总结第二章数据采集与准备一、数据的采集和组织一、数据的采集和组织一、数据的采集和组织一、数据的采集和组织上海交通大学医学院计算机应用教研室龚著琳第一章概论一、什么是数据挖掘二、数据挖掘的过程三、数据挖掘方法的分类预测型描述型一、什么是数据挖掘二、数据挖掘的过程三、数据挖掘方法的分类四、数据挖掘性能评价评价准则样本的组织预测型模型的性能评价描述型模型的性能评价低很大随机分组法中不多时交叉验证法高更少留一法计算成本样本数据量模型评估例1.预测型模型肺癌干预(手术/手术＋化疗)及预后（五年生存）共5万个样本，其中1.7万干预后5年内死于肺癌如何组织数据进行数据挖掘？例2. 共1000个，其中315个五年内死亡如何组织数据？例3. 共49个，14个5年内死亡，35个存活如何组织数据？总结：随机，分布与总体相近计算成本的考虑样本要保证足够多，但不只是数量的多少 TN FP 实际阴性 FN TP 实际阳性分类/预测阴性分类/预测阳性例：ECG(electrocardiogram)诊断试验的结果 700(N) 275 425 180 171（TN） 9 (FP) 520 104（FN） 416(TP) 出现不出现合计阴性阳性合计 ECG诊断结果心肌梗塞灵敏度=？特异度=？分类正确率=? 1－特异度（假阳性率）灵敏度机率线(chance line)(diagonal reference line) 完美结果 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 FPR T P R 无用结果 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 FPR T P R ROC曲线下面积（Area）高 0.90-1.00 = excellent (A) 中 0.80-0.90 = good (B) 0.70-0.80 = fair (C) 低 0.60-0.70 = poor (D) 0.50-0.60 = fail (F) 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 FPR T P R 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 FPR T P R A ＝ 0.664 A ＝ 0.830 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 FPR T P R A ＝ 0.938 例4. 继续前例，干预及预后（五年生存）共5万个样本，其中1.7万干预后，5年内死于肺癌，其余3.3万存活。假定对上述数据分别建立了预测型模型A和B，试比较两个模型的性能。 50000 33000 26400 6600 实际生存例数 17000 3060 13940 实际死亡例数预测为生存预测为死亡 50000 33000 27870 5130 实际生存例数 17000 4530 12470 实际死亡例数预测为生存预测为死亡模型A 模型B 比较模型A与B： 0.79 80.7% 84.5% 73.4% 模型B 0.81 80.7% 80.0% 81.8% 模型A ROC 正确率特异度灵敏度性能评