- 1、本文档共85页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据处理()
学习回顾 数据挖掘(数据仓库/数据库中的知识发现) 在大量数据中提取有趣的(重要的,隐含的,目前未知的,潜在有用的)信息和模式。 知识发现 (KDD) 过程 数据挖掘—知识发现过程的核心 KDD过程的步骤 了解相关应用领域: 相关的预备知识和应用目标 创建或选择一个目标数据集(数据源) 数据预处理(可能占用60%精力): 数据清理(消除噪声和不一致的数据) 数据集成(多种数据源组合在一起) 数据选择(从数据中提取与分析任务相关的数据) 数据变换(数据变换成适合挖掘的形式) 数据挖掘:有哪些信誉好的足球投注网站兴趣模式 选择数据挖掘功能 :汇总,分类,关联,聚集 选择挖掘算法 模式评估(根据某种兴趣度量,识别表示知识的真正有趣的模式) 知识表达(使用可视化和知识表示技术,向用户提供挖掘的知识) 使用发现的知识 2.2假设给定的数据集的值已经分组为区间。区间和对应的频率如下。计算数据的近似中位数值。 中列数:数据集的最大和最小值的平均值。 代数度量。可以用来评估数据集的中心趋势。 数据正相关、负相关 数据不相关 习题讲解1 2.4 假定用于分析的数据包含属性age。数据元组的age 值(以递增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。 (a) 该数据的均值是什么?中位数是什么? (b) 该数据的众数是什么?讨论数据的峰(即双峰、三峰等)。 (c) 数据的中列数是什么? (d) 你能(粗略地)找出数据的第一个四分位数(Q1)和第三个四分位数(Q3)吗? (e) 给出数据的五数概括。 (f) 画出数据的盒图。 (g) 分位数—分位数图与分位数图的不同之处是什么? 解答: (a) 该数据的均值是什么?中位数是什么? 均值是: 中位数应是第14个,即x14=25=Q2。 (b) 该数据的众数是什么?讨论数据的峰(即双峰、三峰等)。 这个数集的众数有两个:25 和35,发生在同样最高的频率处,因此是双峰众数。 (c) 数据的中列数是什么? 数据的中列数是最大术和最小是的均值。即: midrange=(70+13)/2=41.5。 (d) 你能(粗略地)找出数据的第一个四分位数(Q1)和第三个四分位数(Q3)吗? 数据集的第一个四分位数应发生在25%处,即在(N+1)/4=7 处。所以:Q1=20。 而第三个四分位数应发生在75%处,即在3×(N+1)/4=21 处。所以:Q3=35 (e) 给出数据的五数概括。 一个数据集的分布的5 数概括由最小值、第一个四分位数、中位数、第三个四分位数和最大值构成。它给出了分布形状良好的汇总,并且这些数据是: 13、20、25、35、70。 (f) 画出数据的盒图。 数据集的分布的5 数概括由最小值、第一个四分位数、中位数、第三个、四分位数、和最大值构成。它给出了分布形状良好的汇总,并且这些数据是:13、20、25、35、70。 (g) 分位数—分位数图与分位数图的不同之处是什么? 答:分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样,它可以展示所有数的分位数信息,而为独立变量测得的值(纵轴)相对于它们的分位数(横轴)被描绘出来。但分位数—分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域,且点按照两种分布分位数值展示。一条线(y=x)可画到图中,以增加图像的信息。落在该线以上的点表示在y 轴上显示的值的分布比x 轴的相应的等同分位数对应的值的分布高。反之,对落在该线以下的点则低。 作业 P63 2.9(a)(b) P44 例2-1 使用 (卡方)的分类属性的相关分析。 单元(男,小说)的期望频率 根据公式计算 查表可知拒绝假设的X2值是10.828。由于507.93 10.828,因此可以拒绝两个属性独立的假设,从而断言对于给定的人群,两个属性(性别、阅读偏好)是相关的。 作业 P63 2.11 作业 P63 2.14 * 现在来看看离散化的定义以及一种我们在前面已经提到过的离散化技术——概念分层… 概念分层后,数据的细节丢失了,但是概化后的数据更有意义,更容易解释,而且所需的存储空间更少。有效的减少I/O支出 * 人工进行概念分层是一项乏味耗时的工作。实际数据挖掘操作中,我们发现很多分层蕴涵在数据库的模式中,因而可以自动的产生概念分层。或者可以对数据的统计分析动态的加以提炼,产生概念分层。 数值属性的概念分层可以根据数值分布分析自动的构造,我们主要考察5中方法: 分箱、递归的:比如将10,000个值
文档评论(0)