数据预处理讲述.pptx

下载文档 降价啦

22
0
约7.33千字
约 50页
2017-04-08 发布于湖北
举报
版权申诉
保障服务

数据预处理讲述.pptx

1、本文档共50页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据预处理讲述

3.1 数据预处理的必要性 3.2 数据清洗 3.5 数据归约 3.6 数据离散化第3章数据预处理 3.3 数据集成 3.4 数据转换 3.7 特征提取、选择和构造 1 3.1 数据预处理的必要性数据预处理包括数据清理、数据集成、数据变换和数据归约等，可以改进数据质量，提高数据挖掘过程的性能和精度。失真数据、错误的步骤、滥用数据挖掘工具、未考虑数据中的各种不确定性和模糊性，都可能导致方向错误。数据挖掘是一个批判性的鉴定、考查、检验和评估过程。 2 3.1 数据预处理的必要性用不同方式计算，采用不同的样本大小，选择重要的比率，针对时间相关数据改变数据窗口的大小等，都会改进数据挖掘的效果。数据在本质上应该是定义明确的、一致的和非易失性的。数据量应足够大。 3 3.1 数据预处理的必要性杂乱数据的原因：数据缺失数据的误记录，这在大数据集中非常常见。此外，数据可能并非来自假定的样本母体（异常点，偶然/必然?）。 4 3.1 数据预处理的必要性数据准备阶段的两个中心任务：把数据组织成一种标准形式，以便数据挖掘工具和其他基于计算机的工具处理（标准形式是一个关系表）。准备数据集，使其能得到最佳的数据挖掘效果。 5 数据清理包括补漏，平滑噪声数据，识别、删除异常点，解决不一致。手动检查缺值样本，再根据经验加入合理的、可能的、预期的值。用常量自动替换丢失值。如：用全局常量（全局常量的选择与应用有很大关系）替换丢失值。用特征平均值替换丢失值。用给定种类的特征平均值替换丢失值（样本预先分类）。生成一个预测模型来预测每个丢失值。 3.2 数据清洗 3.2.1 缺失数据处理方法 6 数据值越多，越影响数据挖掘性能，而数据值的微小差别不重要，可进行平滑处理。计算类似测量值的平均值。如，数据值是有小数的实数，则把这些值平滑为给定的精度就是应用大量样本的一种简单平整算法，其中每个样本都有自己的实数值。减少特征中不同值的数目，即减少了数据空间的维度，这对基于逻辑的数据挖掘方法特别有用。如将连续型特征分解成只包含“真假”两个值的离散型特征。 3.2 数据清洗 3.2.2 噪声数据平滑技术 7 实际的数据挖掘应用可能时间强相关、时间弱相关和时间无关。最简单情况：隔一定（固定）时间间隔测量的单个特征。用以前的多个（组-窗口）值预测以后的一或多个值。时间序列的特征概括起来，主要成分如下：当前值。应用MA平整得到的值。导出走向（预测）、差值和比率。 3.2 数据清洗 3.2.3 时间相关数据的处理 8 多个数据源的实体之间的匹配，包括含义、数据类型、取值范围等，以达成一致表示。 3.3 数据集成 3.3.1 实体识别与匹配 9 3.3 数据集成 3.3.2 冗余和相关分析 10 2、数值数据的相关系数: 3.3 数据集成 3.3.2 冗余和相关分析 11 相关性不一定意味着因果关系。 3、数值数据的协方差用于评估两个属性是否一起变化 3.3 数据集成 3.3.2 冗余和相关分析 12 3.3 数据集成 3.3.3 元组重复数据的检测除了检测属性间的冗余外，还应当在元组级检测重复（重复实体记录）。去规范化表（数据冗余以减少库表连接）的使用是数据冗余的另一个来源。不一致通常出现在各种不同的副本之间，由于不正确的数据输入，或由于只更新了某些副本的数据，但未更新其他副本的数据。 13 3.3 数据集成 3.3.4 冲突数据的检测与处理数据集成还涉及数据值冲突的检测与处理。不同数据源对同一实体因为表示、包含内容、比例或编码不同而属性值可能不同。数据这种语义上的异种性，是数据集成的巨大挑战。将多个数据源中的数据集成，能减少或避免结果数据集中数据的冗余和不一致性。这有助于提高其后挖掘的精度和速度。 14 3.4 数据转换 3.4.1 数据标准化数据的标准化是将数据按比例缩放，使之落入特定小区间。小数缩放：小数缩放移动小数点，但仍保留大多数原始数据值。常见的缩放是使值在-1到1的范围内。小数缩放可以表示为等式 15 3.4 数据转换 3.4.1 数据标准化最小—最大标准化（归一化）： 16 3.4 数据转换 3.4.1 数据标准化标准差标准化：按标准差进行的标准化对距离测量值非常有效，但是把初始数据转化成了未被认可的形式。对于特征v，平均值mean(v)和标准差sd(v)是针对整个数据集来计算的。对于样本i，用下述公式转换特征的值： 17 3.4 数据转换 3.4.2 数据泛化数据泛化是用高层次概念替换低层次“原始”数据。通过泛化，细节丢失了，但泛化后的数据更有意义、更易解释，且所需的空间比原数据少。在泛化后的数据上进行挖掘，与在大的、泛化前的数据上挖掘相比，所需的I/O