网站大量收购闲置独家精品文档,联系QQ:2885784924

数据挖掘导论-第2章(v4).pptVIP

  1. 1、本文档共78页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第2章数据数据类型数据质量数据预处理相似性和相异性度量

2.1数据类型

2.1.1属性与度量

2.1.2数据集的类型

3数据数据集是数据对象的集合数据对象用一组刻画对象根本特性〔如物体质量或事件发生时间〕的属性描述数据对象的其他名称记录、点、向量、模式、事件、案例、样本、观测或实体属性〔attribute〕是对象的性质或特性,他因对象而异,或随时间而变化属性的其他名称变量、特性、字段、特征或维AttributesObjects属性如何测量和描述,既取决于事物本身的客观性质,也和所掌握的技术手段相关。涉及到测量精度:海岸线长度。虹膜颜色〔分几类颜色描述、RBG均值描述、RBG直方图描述〕

05一月2025数据挖掘导论4测量标度是将数值或符号与对象的属性相关联的规那么。属性的性质不必与用来度量它的值的性质相同。属性的类型序性质、可加性序性质

05一月2025数据挖掘导论5属性的类型属性的类型,即测量标度类型,取决于以下4种数值性质:属性值〔数值〕的性质1、Distinctness〔相异性〕: =? 2、Order〔序〕: 3、Addition〔加法〕: +- Multiplication〔乘法〕: */属性的类型不同,允许的操作不同

05一月2025数据挖掘导论6属性的类型Therearedifferenttypesofattributes标称〔Nominal〕Examples:、雇员ID序数〔Ordinal〕Examples:成绩、街道号码区间〔Interval〕Examples:日期、温度比率〔Ratio〕Examples:绝对温度、长度、年龄、计数

05一月2025数据挖掘导论7表2-2不同的属性类型属性类型描述例子操作标称属性的值仅仅只是不同的名字,即标称值只提供足够的信息以区分对象(=,?)邮政编码、雇员ID号、眼球颜色、性别众数、熵、列联相关、?2检验序数属性的值提供足够的信息确定对象的序(,)矿石硬度、{好,较好,最好}、成绩、街道号码中值、百分位、秩相关、游程检验、符号检验对于区间属性,值之间的差是有意义的,即存在测量单位(?,?)日历日期、摄氏或华氏温度均值、标准差、皮尔逊相关、t和F检验对于比率变量,差和比率都是有意义的(*,/)绝对温度、货币量、计数、年龄、质量、长度、电流几何平均、调和平均、百分比变差分类的(定性的)数值的(定量的)标称序数区间比率

05一月2025数据挖掘导论8表2-3定义属性层次的变换属性类型变换注释任何一对一变换,例如值的一个排列如果所有雇员的ID号都重新赋值,不会导致任何不同值的保序变换,即新值=f(旧值),其中f是单调函数包括概念好、较好、最好的属性可以完全等价地用值{1,2,3}或用{0.5,1,10}表示新值=a×旧值+b,其中a、b是常数华氏和摄氏温度标度零度的位置和1度的大小(单位)不同新值=a×旧值长度可以用米或英尺度量分类的(定性的)数值的(定量的)标称序数区间比率

05一月2025数据挖掘导论9用值的个数描述属性:离散vs.连续属性离散属性(DiscreteAttribute)有限或无限可数(countableinfinite)个值例:邮政编码,计数,文档集的词常表示为整数变量.注意:二元属性(binaryattributes)是离散属性的特例连续属性(ContinuousAttribute)属性值为实数例:温度,高度,重量.实践中,实数只能用有限位数字的数度量和表示.连续属性一般用浮点变量表示.

05一月2025数据挖掘导论10数据集的一般特性维度(Dimensionality)数据集的维度是数据集中的对象具有的属性数目维灾难〔CurseofDimensionality〕维归约〔dimensionalityreduction〕稀疏性(Sparsity)如具有非对称特征的数据集,一个对象的大局部属性上的值都为0只存储和处理非零值分辨率(Resolution)数据的模式依赖于分辨率——度量尺度(scale)在数米的分辨率下,地球外表看上去很不平坦,但在数十公里的分辨率下却相对平坦小时标度下的气压变化反映风暴或其他天气系统的移动;在月标度下,这些现象就检测不到

05一月2025数据挖掘导论11数据集类型〔三大类〕记录数据数据矩阵〔DataMatrix〕文本数据〔DocumentData〕:每篇文档可以表示成一个文档-词矩阵事务数据〔TransactionData〕基于图形(Graph)的数据Worl

文档评论(0)

199****8042 + 关注
实名认证
文档贡献者

相信自己,相信明天

1亿VIP精品文档

相关文档