- 1、本文档共50页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据预处理讲述
3.1
数据预处理的必要性
3.2
数据清洗
3.5
数据归约
3.6
数据离散化
第3章 数据预处理
3.3
数据集成
3.4
数据转换
3.7
特征提取、选择和构造
1
3.1
数据预处理的必要性
数据预处理包括数据清理、数据集成、数据变换和数据归约等,可以改进数据质量,提高数据挖掘过程的性能和精度。
失真数据、错误的步骤、滥用数据挖掘工具、未考虑数据中的各种不确定性和模糊性,都可能导致方向错误。数据挖掘是一个批判性的鉴定、考查、检验和评估过程。
2
3.1
数据预处理的必要性
用不同方式计算,采用不同的样本大小,选择重要的比率,针对时间相关数据改变数据窗口的大小等,都会改进数据挖掘的效果。
数据在本质上应该是定义明确的、一致的和非易失性的。
数据量应足够大。
3
3.1
数据预处理的必要性
杂乱数据的原因:
数据缺失
数据的误记录,这在大数据集中非常常见。
此外,数据可能并非来自假定的样本母体(异常点,偶然/必然?)。
4
3.1
数据预处理的必要性
数据准备阶段的两个中心任务:
把数据组织成一种标准形式,以便数据挖掘工具和其他基于计算机的工具处理(标准形式是一个关系表)。
准备数据集,使其能得到最佳的数据挖掘效果。
5
数据清理包括补漏,平滑噪声数据,识别、删除异常点,解决不一致。
手动检查缺值样本,再根据经验加入合理的、可能的、预期的值。
用常量自动替换丢失值。如:
用全局常量(全局常量的选择与应用有很大关系)替换丢失值。
用特征平均值替换丢失值。
用给定种类的特征平均值替换丢失值(样本预先分类)。
生成一个预测模型来预测每个丢失值。
3.2
数据清洗
3.2.1
缺失数据处理方法
6
数据值越多,越影响数据挖掘性能,而数据值的微小差别不重要,可进行平滑处理。
计算类似测量值的平均值。如,数据值是有小数的实数,则把这些值平滑为给定的精度就是应用大量样本的一种简单平整算法,其中每个样本都有自己的实数值。
减少特征中不同值的数目,即减少了数据空间的维度,这对基于逻辑的数据挖掘方法特别有用。如将连续型特征分解成只包含“真假”两个值的离散型特征。
3.2
数据清洗
3.2.2
噪声数据平滑技术
7
实际的数据挖掘应用可能时间强相关、时间弱相关和时间无关。
最简单情况:隔一定(固定)时间间隔测量的单个特征。用以前的多个(组-窗口)值预测以后的一或多个值。
时间序列的特征概括起来,主要成分如下:
当前值。
应用MA平整得到的值。
导出走向(预测)、差值和比率。
3.2
数据清洗
3.2.3
时间相关数据的处理
8
多个数据源的实体之间的匹配,包括含义、数据类型、取值范围等,以达成一致表示。
3.3
数据集成
3.3.1
实体识别与匹配
9
3.3
数据集成
3.3.2
冗余和相关分析
10
2、数值数据的相关系数:
3.3
数据集成
3.3.2
冗余和相关分析
11
相关性不一定意味着因果关系。
3、数值数据的协方差
用于评估两个属性是否一起变化
3.3
数据集成
3.3.2
冗余和相关分析
12
3.3
数据集成
3.3.3
元组重复数据的检测
除了检测属性间的冗余外,还应当在元组级检测重复(重复实体记录)。去规范化表(数据冗余以减少库表连接)的使用是数据冗余的另一个来源。不一致通常出现在各种不同的副本之间,由于不正确的数据输入,或由于只更新了某些副本的数据,但未更新其他副本的数据。
13
3.3
数据集成
3.3.4
冲突数据的检测与处理
数据集成还涉及数据值冲突的检测与处理。不同数据源对同一实体因为表示、包含内容、比例或编码不同而属性值可能不同。数据这种语义上的异种性,是数据集成的巨大挑战。
将多个数据源中的数据集成,能减少或避免结果数据集中数据的冗余和不一致性。这有助于提高其后挖掘的精度和速度。
14
3.4
数据转换
3.4.1
数据标准化
数据的标准化是将数据按比例缩放,使之落入特定小区间。
小数缩放:
小数缩放移动小数点,但仍保留大多数原始数据值。常见的缩放是使值在-1到1的范围内。小数缩放可以表示为等式
15
3.4
数据转换
3.4.1
数据标准化
最小—最大标准化(归一化):
16
3.4
数据转换
3.4.1
数据标准化
标准差标准化:
按标准差进行的标准化对距离测量值非常有效,但是把初始数据转化成了未被认可的形式。对于特征v,平均值mean(v)和标准差sd(v)是针对整个数据集来计算的。对于样本i,用下述公式转换特征的值:
17
3.4
数据转换
3.4.2
数据泛化
数据泛化是用高层次概念替换低层次“原始”数据。通过泛化,细节丢失了,但泛化后的数据更有意义、更易解释,且所需的空间比原数据少。在泛化后的数据上进行挖掘,与在大的、泛化前的数据上挖掘相比,所需的I/O
您可能关注的文档
- CAD命令及用法解读.docx
- 数据库练习讲述.doc
- 数据库课程设计——班级事务管理系统讲述.doc
- CAD命令解读.docx
- 数据库面试题讲述.doc
- CAD2008_必威体育精装版基础教程_新手入门教程解读.ppt
- CAD图层与对象控制解读.ppt
- 数据库题库讲述.docx
- C51单片机06(串行通信)解读.ppt
- 大桥工程安全交底精要.doc
- 重庆市长寿区2025届初三下学期5月质量检测试题生物试题试卷含解析.doc
- 安徽省马鞍市培正校2024-2025学年初三期中考试生物试题试卷生物试题含解析.doc
- 山东省济南市部分校2025年初三年级调研测试生物试题含解析.doc
- 云南省红河州蒙自市2025年初三年级5月份三校联考生物试题含解析.doc
- 2025年呼伦贝尔市重点中学初三月考试卷(四)生物试题含解析.doc
- 2025年陕师大附中初三保温练习(一)生物试题含解析.doc
- 北京师大附属实验中学2024-2025学年初三第一次强化训练生物试题含解析.doc
- 湖北省天门经济开发区2025年初三下学期二测模拟一生物试题含解析.doc
- 贵州省安顺市2024-2025学年初三下学期期末生物试题生物试题含解析.doc
- 湖南省邵阳市郊区重点中学2024-2025学年初三下学期第五次调研考试生物试题试卷含解析.doc
最近下载
- 办公用品订购合同范本.docx VIP
- WORD版本刻度尺-A4纸打印可用.doc
- 90nm逻辑产品Peeling缺陷的解决方案.pdf
- 神经系统的分级调节.pptx VIP
- 中建施工总平面布置图设计(69页).pdf
- 2024年公共卫生与预防医学继续教育平台“大学习”活动线上培训栏目考试题库(1392题).docx
- 北师大版(2023)必修第一册 Unit 2 Sports and Fitness单元教学设计.pdf VIP
- 2016-2023年长沙民政职业技术学院高职单招(英语/数学/语文)笔试历年参考题库含答案解析.docx
- 农业经济学-农业资金.ppt VIP
- 齐鲁医学神经系统疾病的辅助检查.ppt VIP
文档评论(0)