- 1、本文档共27页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
03数据预处理
生物医学数据挖掘Biomedical Data Mining 上海交通大学医学院 计算机应用教研室 龚著琳 回顾 第一章 概论 四.数据挖掘性能评价 第二章 数据采集与准备 一.数据的采集和组织 1. 数据采集和管理 2. 数据的组织 3. 数据的类型 第二章 数据采集与准备 一.数据的采集和组织 二.数据预处理 1. 目的 2. 数据的分布状态 3. 数据清洗 4. 数据整合 5. 数据变换 6. 数据精简 数据预处理 1.目的 ① 提高数据的质量 处理不好的数据 降低维数 ② 数据质量的表现 完整性 合理性 一致性 No quality data, no quality mining results! 第二章 数据采集与准备 一.数据的采集和组织 二.数据预处理 1. 目的 2. 数据的分布状态 3. 数据清洗 4. 数据整合 5. 数据变换 6. 数据精简 数据预处理 2.数据的分布状态 用统计学工具可解决 数据分布趋势(P18):均值、中值、众数、半程位、 数据散布特性(P19):全程范围、四分位数、四分位范围、标准差 例 P19 收缩压,排序 数据预处理的形式 第二章 数据采集与准备 一.数据的采集和组织 二.数据预处理 1. 目的 2. 数据的分布状态 3. 数据清洗 4. 数据整合 5. 数据变换 5. 数据精简 数据预处理 3.数据清洗 目的:填写缺失值,平滑噪声数据 ①数据缺失 直接删除记录 丢弃属性 如何弥补? 取属性均值 取同类均值 用最可能的值 数据预处理 3.数据清洗 ② 数据噪声:随机性干扰 波动 分组平滑 均值平滑 中值平滑 边界平滑 回归平滑 聚类平滑 分组平滑 例如:一位受试者检测得的收缩压原始数据序列是:129,131,124,136,131,132,138,134,139,……。(P21) 分组平滑 例如:排序后的数据是:4,8,9,15,21,21,24,25,26,28,29,34。 回归平滑 聚类平滑 第二章 数据采集与准备 一.数据的采集和组织 二.数据预处理 1. 目的 2. 数据的分布状态 3. 数据清洗 4. 数据整合 5. 数据变换 6. 数据精简 第二章 数据采集与准备 一.数据的采集和组织 二.数据预处理 1. 目的 2. 数据的分布状态 3. 数据清洗 4. 数据整合 5. 数据变换 6. 数据精简 数据预处理 5.数据变换 ①目的:变换原始数据取值范围或类型 ②类型变换 分类型-数值型(神经网络) 数值型-分类型(决策树) 数据预处理 讨论 例:若舒张压原始数据为:90,110,105,140,220,138,182,205,105,110 则,进行下列数据变换后的新数据是? (1)十进计数法 (2)最小-最大归一法 (3)Z-Score (4)对数归一化 第二章 数据采集与准备 一.数据的采集和组织 二.数据预处理 1. 目的 2. 数据的分布状态 3. 数据清洗 4. 数据整合 5. 数据变换 6. 数据精简 6. 数据精简 ①目的:减少冗余,提高模型性能 ②样本记录数的选择 精简冗余、保留典型 P33 随机选取 典型性分数 弥补不平衡数据 欠抽样undersampling 过抽样oversampling 数据预处理 6. 数据精简 ③样本特征属性的选择 ①逐一尝试 ②舍弃相关性高的特征 ③分类型特征 舍弃预测性分数高的 ④数值型特征 舍弃fisher系数低的 fisher系数 讨论 例:构建模型,乳腺癌患者预后受哪些因素影响?如何影响? 数据来源:NCI提供的SEER报告,长期收集美国的癌症患者数据,有三个数据库。原始记录779999条,特征属性115项,数据收集于1973-2004年间。 对于这样一批数据,如何进行预处理? (1)来自于不同数据库,如何保证数据的一致性? (2)数据不完整,属性缺失,如何处理? (3)数据噪声如何识别?如何判别? (4)115项特征属性如何取舍?取舍依据? (5)样本数据如何组织? 数据预处理小结 效果较差 好 4.数据整合 ①目的:纠正不一致数据 ②基本任务:将多个数据源中的数据整合 ③方法: 实体识别 消除冗余 消除重复记录 数据值不一致 5.数据变换 ③数值归一化 十进计数法 最小-最大归一法 Z-Score 对数归一法
您可能关注的文档
- 03Analysis and Design Overview.ppt
- 03b双向_缓动(SUN插阀应用技术资料).ppt
- 032腹部损伤.ppt
- 03a洩压阀(SUN插阀应用技术资料).ppt
- 走进中国人保(新版).ppt
- 超详细网站SEO站内优化流程方案.pptx
- 赛讲课(浙教版)四年级品德与社会下册少数民族之乡云南.ppt
- 03Enzymes.ppt
- 03ImprovingSearch.ppt
- 03M工程能力分析.ppt
- 吉安县公开招聘专职文明实践员笔试备考试题及答案解析.docx
- 2025重庆枫叶国际学校招聘教师笔试备考试题及答案解析.docx
- 游机队电玩自制联网教程-tplink.pdf
- 2025重庆新华出版集团招聘1人笔试模拟试题及答案解析.docx
- 2025宜宾高新丽雅城市产业发展有限公司公开招聘笔试模拟试题及答案解析.docx
- 2025云南保山市龙陵县勐糯镇人民政府招聘合同制专职消防员1人笔试模拟试题及答案解析.docx
- 11.1生活中常见的盐 九年级化学人教版下册.pptx
- 6.1法律保护下的婚姻 高二政治《法律与生活》课件(统编版选择性必修2)(新版).pptx
- 文昌市中小学教师校园招聘29人笔试模拟试题及答案解析.docx
- 10.1.5 常见的酸和碱(第5课时)课件-九年级化学人教版下册.pptx
文档评论(0)