网站大量收购闲置独家精品文档,联系QQ:2885784924

02性能评价数据的采集和组织.ppt

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
02性能评价数据的采集和组织

生物医学数据挖掘 Biomedical Data Mining 回顾 第一章 概论 四、数据挖掘性能评价 评价准则:结果或模型 准确性 可理解性 性能 数据的噪声 四、数据挖掘性能评价 样本的组织 所有样本属性已知 两类样本:相互独立 学习样本/训练样本集:规律的总结 测试样本集:评价、检验 两类样本的分组 两类样本的分组 随机分组法: 通常:训练集(2/3),测试集(1/3) 两类样本的分组 交叉验证法: 如 K折交叉验证法(一般随机分成10组) 留一法:适用样本数据更少的情况 举例 四、数据挖掘性能评价 预测型模型的性能评价 残差 混淆矩阵 P10 灵敏度(sensitivity) 特异度(specificity) 分类正确率(accuracy) ROC(receiver operating characteristics curve)曲线 四、数据挖掘性能评价 灵敏度 特异度 分类正确率 灵敏度与特异度 取值:均在0-1之间 缺点:单独使用,可能出现矛盾 解决办法:ROC曲线 四、数据挖掘性能评价 ROC曲线 灵敏度与特异度间的平衡(trade off) 总结 第二章 数据采集与准备 一、数据的采集和组织 一、数据的采集和组织 一、数据的采集和组织 一、数据的采集和组织 上海交通大学医学院 计算机应用教研室 龚著琳 第一章 概论 一、什么是数据挖掘 二、数据挖掘的过程 三、数据挖掘方法的分类 预测型 描述型 一、什么是数据挖掘 二、数据挖掘的过程 三、数据挖掘方法的分类 四、数据挖掘性能评价 评价准则 样本的组织 预测型模型的性能评价 描述型模型的性能评价 低 很大 随机分组法 中 不多时 交叉验证法 高 更少 留一法 计算成本 样本数据量 模型 评估 例1.预测型模型 肺癌 干预(手术/手术+化疗)及预后(五年生存) 共5万个样本,其中1.7万干预后5年内死于肺癌 如何组织数据进行数据挖掘? 例2. 共1000个,其中315个五年内死亡 如何组织数据? 例3. 共49个,14个5年内死亡,35个存活 如何组织数据? 总结: 随机,分布与总体相近 计算成本的考虑 样本要保证足够多,但不只是数量的多少 TN FP 实际阴性 FN TP 实际阳性 分类/预测 阴性 分类/预测 阳性 例:ECG(electrocardiogram)诊断试验的结果 700(N) 275 425 180 171(TN) 9 (FP) 520 104(FN) 416(TP) 出现 不出现 合计 阴 性 阳 性 合 计 ECG诊断结果 心肌梗塞 灵敏度=? 特异度=? 分类正确率=? 1-特异度(假阳性率) 灵敏度 机率线(chance line) (diagonal reference line) 完美结果 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 FPR T P R 无用结果 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 FPR T P R ROC曲线下面积(Area) 高 0.90-1.00 = excellent (A) 中 0.80-0.90 = good (B) 0.70-0.80 = fair (C) 低 0.60-0.70 = poor (D) 0.50-0.60 = fail (F) 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 FPR T P R 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 FPR T P R A = 0.664 A = 0.830 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 FPR T P R A = 0.938 例4. 继续前例, 干预及预后(五年生存) 共5万个样本,其中1.7万干预后,5年内死于肺癌,其余3.3万存活。 假定对上述数据分别建立了预测型模型A和B, 试比较两个模型的性能。 50000 33000 26400 6600 实际生存例数 17000 3060 13940 实际死亡例数 预测为生存 预测为死亡 50000 33000 27870 5130 实际生存例数 17000 4530 12470 实际死亡例数 预测为生存 预测为死亡 模型A 模型B 比较模型A与B: 0.79 80.7% 84.5% 73.4% 模型B 0.81 80.7% 80.0% 81.8% 模型A ROC 正确率 特异度 灵敏度 性能评

文档评论(0)

kabudou + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档