埃森哲大数据分析方法论及工具.pptxVIP

下载本文档

8
0
约1.95千字
约 65页
2019-01-18 发布于浙江
举报
版权申诉

埃森哲大数据分析方法论及工具.pptx

1、本文档共65页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据分析--埃森哲;目录;数据分析即从数据、信息到知识的过程，数据分析需要数学理论、行业经验以及计算机工具三者结合;随着计算机技术发展和数据分析理论的更新，当前的数据分析逐步成为机器语言、统计知识两个学科的交集（备选）;;目录;1.业务理解(business understanding）确定目标、明确分析需求 2.数据理解（data understanding）收集原始数据、描述数据、探索数据、检验数据质量 3.数据准备(data preparation) 选择数据、清洗数据、构造数据、整合数据、格式化数据 4.建立模型(modeling）选择建模技术、参数调优、生成测试计划、构建模型 5.评估模型(evaluation) 对模型进行较为全面的评价，评价结果、重审过程 6.部署(deployment) 分析结果应用;数据分析框架;;目录;数据清洗数据探索;给定一个置信概率，并确定一个置信限，凡超过此限的误差，就认为它??属于随机误差范围，将其视为异常值。常用的方法（数据来源于同一分布，且是正态的）：拉依达准则、肖维勒准则、格拉布斯准则、狄克逊准则、t检验。 ;判别方法; 由包含m个插补值的向量代替每一个缺失值，然后对新产生的m个数据集使用相同的方法处理，得到处理结果后，综合结果，最终得到对目标变量的估计;数据探索;;数据概率分布;数据分布初步推断;相关系数是考察变量之间的相关程度的变量，相关分析是优化数据结构的基础;检验动机：样本数据只是总体的一个实现，因此，根据现有数据计算出来的相关系数只是变量相关系数的一个观测值，又称为样本相关系数。欲根据这个样本相关系数来估计总体相关系数，必须进行显著性检验。其原假设：在总体中，两个变量的相关系数(总体相关系数)为零检验意义：计算在原假设成立的情况下(也就是在两个变量相关系数为零的情况下)，由于抽样的原因(收集样本数据的原因)得到当前的样本相关系数(可能这个系数并不为零，甚至还比较大)的概率。（p值越小说明越是小概率事件，不可能发生，拒绝原假设）检验方法： T检验（常用）：对于近似高斯分布的数据（如两个变量服从双变量正态分布）, 相关系数的样本分布近似地服从自由度为N???2的 t分布；如果样本容量不是特别小（通常大于30），即使观测数据不服从正态分布，依然可使用t检验; Karl Pearson（1901）探究如何通过少数几个主成分(principal component)来解释多个变量间的内部结构时提出主成分分析法，旨在从原始变量中导出少数几个主分量，使其尽可能多地保留原始变量的信息，且彼此间互不相关内涵：将彼此相关的一组指标变量转化为彼此独立的一组新的指标变量，并用其中较少的几个新指标变量就能综合反映原多个指标变量所包含主要信息的多元统计方法;;目录;分类;未知数据;分类;分类;分类;分类;回归;分类：前提：正态性假设：总体误差项需服从正态分布，反之则最小二乘估计不再是最佳无偏估计，不能进行区间估计和假设检验零均值性假设：在自变量取一定值的条件下，其总体各误差项的条件平均值为零，反之无法得到无偏估计等方差性假设：在自变量取一定值的条件下，其总体各误差项的条件方差为一常数，反之无法得到无偏估计独立性假设：误差项之间相互独立（不相关）,误差项与自变量之间应相互独立，否则最小二乘估计不再是有效估计检验：回归模型 ;;分类模型评估;;以真正率及敏感性为纵轴，假正率=1-特异性为横轴做图。给定一个二类问题，我们可以对检验集的不同部分，显示模型可以正确识别正样本的比例与模型将负样本错误标识为正样本的比例之间的比较评定。敏感性的增加以错误正例的增加为代价。 ;响应率曲线;目录;;聚类分析——K均值聚类;聚类模型评估;目录;关联规则;;关联规则;关联规则;关联规则;目录;时间序列：是按时间顺序的一组数字序列构成：组合模型：加法模型：假定时间序列是基于4种成份相加而成的。长期趋势并不影响季节变动；Y=T+S+C+I 乘法模型：假定时间序列是基于4种成份相乘而成的。假定季节变动与循环变动为长期趋势的函数；;建模步骤： ;50;51;52;目录;结构优化-遗传算法;结构优化—灰色理论;目录;; 可选组件;数据挖掘工具- SPSS Clementine（现已更名为：PASW Modeler ）;数据挖掘工具- R;数据挖掘工具- Stata;数据挖掘工具- MATLAB;数据挖掘工具- 其他;数据挖掘的工具及软件;从数据到信息的进化