第2章数据处理基础.ppt

  1. 1、本文档共72页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第2章数据处理基础

* Canberra/Bray Curtis/Czekanowski距离 Canberra距离 Bray Curtis距离 Czekanowski距离 * Mahalanobis距离 Covariance Matrix: B A C A: (0.5, 0.5) B: (0, 1) C: (1.5, 1.5) Mahal(A,B) = 5 Mahal(A,C) = 4 * 二值属性 二元数据相似性度量 M01 = x取0并且y取1的属性的个数 M10 = x取1并且y取0的属性的个数 M00 = x取0并且y取0的属性的个数 M11 = x取1并且y取1的属性的个数 简单匹配系数(Simple Matching Coefficient,SMC): SMC = 值匹配的属性个数 /属性个数 = (M11 + M00) / (M01 + M10 + M11 + M00) Jaccard系数 J = 匹配的个数 /不涉及0-0匹配的属性个数 = (M11) / (M01 + M10 + M11) * 例子 X = (1 0 0 0 0 0 0 0 0 0) Y= ( 0 0 0 0 0 0 1 0 0 1) M01 = 2 (x取0并且y取1的属性的个数) M10 = 1 (x取1并且y取0的属性的个数) M00 = 7 (x取0并且y取0的属性的个数) M11 = 0 (x取1并且y取1的属性的个数) SMC = (M11 + M00)/(M01 + M10 + M11 + M00) = (0+7) / (2+1+0+7) = 0.7 J = M11 / (M01 + M10 + M11) = 0 / (2 + 1 + 0) = 0 * 符号、顺序和比例数值属性 符号属性变量 对于符号变量,最常用的计算对象p和对象q之间差异程度的方法是简单匹配方法,其定义如下: 其中s表示对象p和对象q取值相同状态的符号变量个数,M为符号变量总的状态个数,M-s表示对象p和对象q取不同状态的符号变量个数。 * 符号、顺序和比例数值属性 顺序变量 在计算对象间的差异程度时,顺序变量的处理方法与间隔数值变量的处理方法类似。涉及变量f的差异程度计算方法如下: 第i个对象的f变量值记为Xif,变量f有个Mf有序状态,利用等级1,2,…, Mf分别替换相应的Xif ,得到相应的rif, 。 将顺序变量做变换 映射到区间[0, 1]上。 利用有关间隔数值变量的任一种距离计算公式来计算差异程度。 * 符号、顺序和比例数值属性 比例数值变量 在计算比例数值变量所描述对象间的距离时,有三种 处理方法,它们是: 将比例数值变量当做区间间隔数值变量来进行计算处理,这种方法不太好,因为非线性的比例尺度可能会被扭曲。 将比例数值变量看成是连续的顺序变量进行处理。 利用变换(如对数转换 )来处理第i个对象中属性f的值xif得到yif ,将yif当作间隔数值变量进行处理。这里的变换需要根据具体定义或应用要求而选择log或log-log或其它变换。相对来说这一方法效果最好。 * 符号、顺序和比例数值属性 混合类型的变量 计算具有混合类型变量对象之间差异程度的一种方法是将变量按类型分组,对每种类型的变量单独进行聚类分析。 另一种方法是将不同类型的变量组合在一个差异度矩阵中,把所有变量转换到统一的区间[0,1]中.假设数据集包含m种不同类型的变量,对象p和q之间的差异度d(p,q)定义为: * 对象之间的相似系数 可以通过一个单调递减函数,将距离转换成相似性度量,相似性度量的取值一般在区间[0,1]之间,值越大,说明两个对象越相似。 采用负指数函数将Euclidean距离转换为相似性度量s,即 采用取Euclidean距离的倒数,为了避免分母为0的情况,在分母上加1,即 若距离在0~1之间,可采用与1的差作为相似系数,即: 作业: * 数据变换——特征构造 特征提取(Feature Extraction) 由原始数据创建新的特征集 映射数据到新的空间 从不同视角提示重要和有趣的特征 傅里叶变换(Fourier Transform) 小波变换(Wavelet Transform) 特征构造 由一个或多个原始特征共同构造新的特征 * 数据变换——离散化与概念分层 离散化 通过将属性域划分为区间,减少给定连续属性值

文档评论(0)

zhuliyan1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档