网站大量收购闲置独家精品文档,联系QQ:2885784924

数据挖掘-第二章-认识数据.pptVIP

  1. 1、本文档共57页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

1第二章:认识数据数据对象和属性类型数据的根本统计描述数据可视化度量数据的相似性和相异性

2数据对象DataObjects数据集由数据对象组成。一个数据对象代表一个实体(entity)。销售数据库:顾客,商品,销售医疗数据库:患者大学数据库:学生、教授、课程数据对象又称为样本、实例、数据点、或对象。数据对象用属性(attribute)描述。数据行对应数据对象;列对应属性。

3属性Attributes属性(attribute)是一个数据字段,表示数据对象的一个特征。如:customer_ID,name,address类型:标称属性(nominal)二元属性(binary)序数属性(ordinal)数值属性(numeric)区间标度属性(interval-scaled)比率标度属性(ratio-scaled)

4属性类型AttributeTypes标称属性(nominalattribute)其值是一些符号或者事物的名称。头发颜色={黑色,棕色,灰色,白色}二元属性(binaryattribute)是一种标称属性,只有两个状态:0或1。对称的(symmetric):两种状态具有同等价值,携带相同权重。如:性别非对称的(asymmetric):其状态的结果不是同样重要。如:艾滋病毒的阳性和阴性结果。对重要的结果用1编码,另一个用0编码。

5属性类型AttributeTypes序数属性(ordinalattribute)其可能的值之间具有有意义的序或者秩评定(ranking),但是相继值之间的差是未知的。成绩={优,良,中,差}其中心趋势可以用它的众数和中位数表示,但不能定义均值。注意标称、二元和序数属性都是定性的,即只描述对象的特征,不给出实际的大小。

6属性类型AttributeTypes数值属性(numericattribute)区间标度(interval-scaled)属性使用相等的单位尺度度量。值有序,可以评估值之间的差,不能评估倍数。没有绝对的零点。如:摄氏温度,华氏温度比率标度(ratio-scaled)属性具有固定零点的数值属性。值有序,可以评估值之间的差,也可以说一个值是另一个的倍数。如:开式温温标(K),重量,高度,速度

7属性类型AttributeTypes离散属性(discreteAttribute)具有有限或者无限可数个值。如:、省份数目具有有限个值,customer_Id是无限可数的。可以用或者不用整数表示。连续属性(ContinuousAttribute)属性值为实数。一般用浮点变量表示。

8第二章:认识数据数据对象和属性类型数据的根本统计描述数据可视化度量数据的相似性和相异性小结

9数据的根本统计描述目的更好地识别数据的性质,把握数据全貌:中心趋势度量,数据散布中心趋势度量(measuresofcentraltendency)均值、中位数、众数、中列数数据的散布(dispersionofthedata)极差、四分位数极差、五数概括、盒图数据可视化(graphicdisplaysofbasicstatisticaldescriptions)分位数图、分位数-分位数图、直方图、散点图

10中心趋势度量均值(mean)加权算术平均:每i个xi与一个权重wi相关联截尾均值:丢弃上下端极值中位数(median)有序数值的中间值数据集的中位数可以通过插值(interpolation)估算L1:中位数区间下界N:数据集中值的个数所有区间频率和中位数区间的频率width:中位数区间的宽度

11习题2.3设给定的数据集已经分组到区间,这些区间和对应频率如图。计算该数据的近似中位数确定中位数所在组因此中位数在21~50组计算中位数

12中心趋势度量众数(mode)数据集中出现频率最高的值最高频率对应多个峰值,分为单峰的(unimodal),双峰的(bimodal),三峰的(trimodal)经验公式:中列数(midrange)最大数和最小数的平均值

02January2025DataMining:ConceptsandTechniques13对称数据和非对称数据对称、正倾斜、负倾斜数据的中位数、均值和众数

14数据统计常识Quartiles,outliersandboxplots四分位数Quartiles:Q1(25thpercentile),Q3(75thpercentile)四位分数极差Inter-quartilerange:IQR=Q3–Q1五数概括Fivenumbersummary:mi

文档评论(0)

寒傲似冰 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8071104010000026

1亿VIP精品文档

相关文档