- 1、本文档共93页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
认识数据;学习目标/Target;引言/Introduction;目录/Contents;数据类型;数据集由对象组成,一个数据对象代表一个实体,数据对象又被称为记录、数据点、事件、实例、样本、实体等,数据对象通常用一组属性进行描述。
数据对象存放在数据库时,被称为数据元组,数据库的行对应于数据对象,数据库的列对应于属性。
通常,数据集是一个文件,数据对象是文件的一条记录(或行),每个字段(或列)对应一个属性。;3.1.1属性与度量;3.1.1属性与度量;3.1.1属性与度量;3.1.1属性与度量;3.1.1属性与度量;3.1.1属性与度量;3.1.1属性与度量;3.1.2数据集类型;3.1.2数据集类型;3.1.2数据集类型;3.1.2数据集类型;3.1.2数据集类型;3.1.2数据集类型;3.1.2数据集类型;3.1.2数据集类型;数据质量;数据挖掘使用的数据常常是为其他用途收集的,或者在收集时目的并不明确。面对这一问题,数据挖掘过程从两方面入手以减少数据质量对结果的影响:
(1)数据质量问题的检测和纠正;
(2)设计和应用可以容忍低质量数据的算法。数据质量问题的检测和纠正通常称作数据清理。;3.2.1测量和数据收集;3.2.1测量和数据收集;3.2.1测量和数据收集;3.2.1测量和数据收集;3.2.1测量和数据收集;3.2.1测量和数据收集;3.2.1测量和数据收集;3.2.2数据应用;探索数据;对于数据预处理而言,进行数据探索,把握数据的全貌是至关重要的。此外,数据探索也有助于选择合适的数据预处理和数据分析技术。
基本统计描述是用来进行数据探索的主要方法,包括下面三种基本统计描述。
中心趋势度量,包括均值、中位数、众数和中列数,度量数据分布的中部或中心位置。
离散趋势度量,包括极差、四分位数、百分位数和四分位极差,以及方差和标准差,度量数据的发散程度,有助于数据集离群点的识别。
基本统计描述的图形显示,包括百分位数图、分位数-分位数图、直方图和散点图,通过可视化的方式审视数据,了解数据的分布特征。;3.3.1中心趋势度量;3.3.1中心趋势度量;3.3.1中心趋势度量;3.3.1中心趋势度量;3.3.1中心趋势度量;3.3.1中心趋势度量;3.3.1中心趋势度量;3.3.2数据???布度量;3.3.2数据散布度量;3.3.2数据散布度量;3.3.2数据散布度量;3.3.2数据散布度量;3.3.2数据散布度量;3.3.2数据散布度量;3.3.2数据散布度量;3.3.3数据基本统计描述的图形显示;3.3.3数据基本统计描述的图形显示;3.3.3数据基本统计描述的图形显示;3.3.3数据基本统计描述的图形显示;3.3.3数据基本统计描述的图形显示;3.3.3数据基本统计描述的图形显示;3.3.3数据基本统计描述的图形显示;3.3.3数据基本统计描述的图形显示;3.3.3数据基本统计描述的图形显示;数据可视化;数据可视化已被广泛应用。
在数据探索中使用可视化技术能够发现原始数据中隐藏的数据联系和模式,更常见的是使用数据可视化技术制作引人注目的图表以展示关键信息。;3.4.1一般方法和技术;3.4.1一般方法和技术;3.4.1一般方法和技术;3.4.1一般方法和技术;3.4.1一般方法和技术;3.4.1一般方法和技术;3.4.2少量属性的可视化;3.4.2少量属性的可视化;3.4.2少量属性的可视化;3.4.2少量属性的可视化;3.4.2少量属性的可视化;3.4.3可视化时间空间数据;3.4.4可视化高维数据;数据对象相似性与相异性度量;在大多数数据挖掘应用中,都需要评估对象之间的相似性或差异性程度。
相似性和相异性是有关联的,都称为邻近度(proximity)。相似度(similarity)是指两个对象之间的相似性程度的数值度量。如果两个对象没有相似性,它们的相似度为0。对象之间越相似,它们之间的相似度值越大。
通常,相似度值落在[0,1]区间,两个对象等同时,相似度值等于1。相异度(dissimilarity)是指两个对象之间的差异性程度的数值度量,相异度通常也被称为距离(distance)。对象之间越相似,它们之间的相异度值越小。如果对象相同,则相异性值为0。对象之间的差异性越大,相异度值越大。相异度值可能在[0,1]中取值,也可在[0,∞)取值(这里的∞表示上限不确定)。;3.5.1数据矩阵与邻近度矩阵;3.5.1数据矩阵与
文档评论(0)