高中信息技术 粤教版必修1《数据与计算》数据的分析 课件.pptx

高中信息技术 粤教版必修1《数据与计算》数据的分析 课件.pptx

  1. 1、本文档共53页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
;;;4;;;5.3 数据的分析;5.3 数据的分析;特 征 探 索;;(1)数据清洗,发现缺失值。如果销量为0的,修改为64。;(2)异常值处理中,利用画散点图发现异常值部分,找到异常值。;(3)求最大值和最小值。;(4)求极差;(6)绘制价格直方图。;(7)绘制销量数直方图。;特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差、组距等描述性统计量。;18;商品关联 —— 顾客购买习惯 —— 商家制定销售策略;;计算机如何对数据进行关联分析?;关联分析 ;关联分析 ;关联分析 ;步骤四:将L1中的数据两两拼接,得C2。;步骤五:将L2中的数据两两拼接,得C3。;关联分析 就是分析并发现存在于大量数据之间的关联性或相关性,从而描 述一个事物中某些属性同时出现的规律和模式。;关联分析的基本算法是: 1. 扫描历史数据,并对每项数据进行频率次数统计。 2. 构建候选项集C1,并计算其支持度,即数据出现频率次数与总数的比。 3. 对候选项集的支持度进行筛选,筛选的数据项支持度应当不小于最小 支持度,从而形成频繁项集L1。 4. 对频繁项集L2进行连接生成候选项集C2,重复以上步骤,最终形成频 繁K项集或者最大频繁项集。;29;;K-平均算法是一种经典的自下而上的聚类分析方法。它的基本思想就是在空间N个点中,初始选择K个点作为中心聚类点,然后将N个点分别与K个点计算距离,选择自己最近的点作为自己的中心点,再不断更新中心聚集点,以达到“物以类聚,人以群分”的效果。;5.3.3 聚类分析;聚类分析程序关键代码;聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。;聚类分析的基本算法: 1. 从数据点集合中随机选择K个点作为初始的聚集中心,每个中心代表着每个聚 集中心的平均值。 2. 对其余的每个数据点,依次判断其与K个中心点的距离,距离最近的表明它属 于这项聚类。 3. 重新计算新的聚簇集合的平均值即中心点。整个过程不断迭代计算,直到达 到预先设定的迭代次数或中心点不再频繁波动。;数 据 分 类;分 类;;;例如,假设有一个数据集,由两类组成,且已知每个样本的分类,数据分布如下图所示。用 p1(x,y) 表示数据点 (x,y) 属于红色一类的概率,用 p2(x,y)表示数据点 (x,y) 属于蓝色一类的概率。;那么如何判断对于一个新的点 C(x,y)属于红色还是属于蓝色类别呢? 通常人们会按以下步骤解答这个问题: (1)求新的点 C(x,y)属于红色一类的概率 p1(x,y)。 (2)求新的点 C(x,y)属于蓝色一类的概率 p2(x,y)。 (3)选择概率高的一类作为新点 C(x,y)的分类。即 如果 p1(x,y)p2(x,y),则 C(x,y)为红色一类; 如果 p1(x,y)p2(x,y),则 C(x,y)为蓝色一类。;;;;;数据分类 是数据分析处理中最基本的方法。数据分类的通常做法是,基于样本数据先训练构建分类函数或分类模型,该分类器具有将待分类数据映射到某一特点类别的功能。;;;;;;数据分析;THANK YOU

您可能关注的文档

文档评论(0)

文先生 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8047000056000024

1亿VIP精品文档

相关文档