04.《大数据导论》第4章 大数据分析与挖掘.pptx

04.《大数据导论》第4章 大数据分析与挖掘.pptx

  1. 1、本文档共73页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第四章大数据挖掘分析4.1. 数据挖掘分析概述4.2 数据统计分析4.3 数据挖掘方法4.4 数据分析应用举例《数据科学与大数据技术导论》of731

4.1数据挖掘分析概述第四章大数据挖掘分析of7321.数据挖掘的概念通过对海量的、杂乱无章的、不清晰的并且随机性很大的数据进行挖掘,找到其中蕴含的有规律并且有价值和能够理解应用的知识。相关概念:KDD:(KnowledgeDiscoveryinDatabase),知识发现两大类方法有监督方法分类分析回归分析无监督方法聚类分析关联分析

4.1数据挖掘分析概述of7332.数据挖掘的流程第四章大数据挖掘分析确立挖掘目的数据处理数据建模模型验证和评估模型应用

对数据挖掘中的原始数据,存在的问题有:不一致重复不完整含噪声ABCD提交维度高E多选题2分

4.1数据挖掘分析概述of7353.数据挖掘常用方法第四章大数据挖掘分析名称含义简述代表性算法分类以已知的观测数据分类结果为依据,为新的观测数据进行分类,属于预测的一种,事先已经有定义好的类别K近邻、决策树、贝叶斯分类、支持向量机、神经网络等聚类是对相似的观测数据分组形成簇,同一簇中的数据类似,不同簇中的数据相异。事先没有定义好的类别K-means、PAM划分聚类方法、DBSCAN、OPTICS密度聚类方法、谱聚类方法等关联规则探索一个事件与其他事件关联的知识,用于发现隐藏在大型数据集背后的重要关联关系Apriori算法、FP-Growth算法、USpan算法、HusMaR算法等回归分析解释一组变量(输入变量或自变量)对另外一个变量(因变量)结果的影响,用确定的函数关系近似替代比较复杂的相关关系一元线性回归、多元线性回归、非线性回归等

某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?关联规则发现聚类分类自然语言处理ABCD提交单选题2分

什么是KDD?领域知识发现数据挖掘与知识发现文档知识发现动态知识发现ABCD提交单选题2分

4.1数据挖掘分析概述of7384.数据挖掘常用工具第四章大数据挖掘分析工具名称功能说明使用方法RapidMiner基于模板框架提供高级数据分析功能;无需编程、自动分析;服务提供软件而非本地软件开源、免费,Java编写SAS提供了从基本统计数的计算到各种试验设计的方差分析,相关回归分析以及多变数分析的多种统计分析过程;拥有自动化的数据处理工具,易于使用的图形用户界面商业版数据挖掘软件SPSS采用类似Excel表格的方式输入与管理数据,使用简单;提供统计描述、评估、聚类、回归等统计分析方法,还提供报表、编辑、图形制作等功能;图形用户界面,无需编程商业版数据挖掘软件WeKa集成了大量机器学习算法,提供了包括数据预处理、分类、回归、关联规则、特征选取和可视化等功能,能够被许多开源数据挖掘软件调用。免费、非商业化挖掘软件,Java编写Orange能够对数据和模型进行多种图形化展示,包括散点图、条形图、树、网络和热图等,可视化功能强,界面友好易于使用;提供了数据帐目、过渡,建模,模式评估和探测等数据分析功能,但统计分析和报表能力有限开源数据挖掘和机器学习工具;C++编写,允许用户使用Python脚本语言来进行扩展开发KNIME提供了包含数据提取、集成、处理、分析、转换以及加载等功能。图形用户界面,易用性强;适用于商业情报和财务数据分析开源数据分析工具,Java编写

第四章大数据挖掘分析4.1. 数据挖掘分析概述4.2 数据统计分析4.3 数据挖掘方法4.4 数据分析应用举例《数据科学与大数据技术导论》of739

of73101.数据的集中趋势分析第四章大数据挖掘分析4.2数据统计分析(1)均值(Mean)?(2)中位数(Median):数据排序后,按如下公式计算得到。

of73111.数据的集中趋势分析第四章大数据挖掘分析4.2数据统计分析(3)四分位数(Quartile)?当p=1/2时即为中位数,当p=1/4,p=3/4时的数就称为四分位数,当p=1/4时,称作上四分位,当p=3/4时,称作下四分位。(4)众数(Mode)?一组数据中出现次数最多的数据叫做这组数据的众数

of73121.数据的集中趋势分析第四章大数据挖掘分析4.2数据统计分析【例4-1】表为小明和小华两个学生的7次模拟成绩,分别求其平均值、中位数和众数。姓名模拟1模拟2模拟3模拟4模拟5模拟6模拟7小明75798082828999小华326581858592100根据公式,可以得到小明、小华两个学生的均值分别为83.7和77.1。根据公式,小明、小华两个学生的中位数分别是82,85小明、小华两个学生的众数为82,85小明和小华两个学生的7次模拟成绩

of73132

文档评论(0)

xiadaofeike + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8036067046000055

1亿VIP精品文档

相关文档