620现代统计方法及案例分析.ppt

  1. 1、本文档共62页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
现代统计方法及案例分析 ——基于数据挖掘的数据准备 朱建平 厦门大学经济学院统计系 厦门大学数据挖掘研究中心 xmjpzhu@xmu.edu.cn 报告内容及目的 让大家了解数据挖掘的概念,认识海量数据分析时所遇到的问题,在此基础上,介绍原始大型数据库的基本表述和特征,了解数据准备的不同技术,比较去除丢失值的不同方法,构造时间相关数据的统一表述方法,实现一些数据预处理技术。其目的是让大家从中领悟现代统计方法的基本思想。 现代统计方法及案例分析 一、数据挖掘的定义 二、数据挖掘与知识发现 三、海量数据分析中遇到的问题 四、数据准备 1、数据选择 2、数据预处理 3、数据变换 What are these numbers trying to Tell me??? Matrix Codes 99:8179,7954, 舅舅:不要吃酒,吃酒误事, 76269,8406,9405, 吃了二两酒,不是动怒,就是动武, 7918934,1.91817。 吃酒要被酒杀死,一点酒也不要吃。 What Are These Numbers Trying to Tell Us? 7 ÷2 2≦x≦3 40 ÷ 6 二四六八 0000 1 × 1 = 1 10002 =100×100×100 7/8 一、数据挖掘的技术定义与商业定义 什么是数据挖掘(Data Mining)? 关于定义取决于定义者的观点和背景,各人的说法不一. Friedman, J. H.在技术报告Data Mining and Statistics: Whats The Connection? 中总结出了多家关于数据挖掘的定义(也有对知识发现而言的): Fayyad提出数据挖掘是一个确定数据中有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程. Zekulin的说法是数据挖掘是一个从大型数据库中提取以前未知的、可理解的、可执行的信息,并用它来进行关键的商业决策的过程. Ferruzza给出数据挖掘是用在知识发现过程,来辩识存在于数据中的未知关系和模式的一些方法. Jonn提到数据挖掘是发现数据中有益模式的过程. Parsaye定义数据挖掘是我们为那些未知的信息模式而研究大型数据集的一个决策支持过程. 这些表达方式虽然不同,但从各自的角度描述出了对数据挖掘的理解.这里我们主要从技术和商业的角度给出数据挖掘的定义. 1、 数据挖掘的技术定义 从技术角度,数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程. 它是涉及机器学习、模式识别、统计学、人工智能、数据库管理及数据可视化等学科的边缘学科. 这个定义包括好几层含义: 数据源必须是真实的、大量的、含噪声的; 发现的是用户感兴趣的知识; 发现的知识要可接受、可理解、可运用; 这些知识是相对的,是有特定前提和约束条件的,在特定领域中具有实际应用价值. 什么是知识呢? 从广义上理解,数据、信息是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识. 人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样. 2、数据挖掘的商业定义 从商业应用角度看,数据挖掘是一种新的商业信息处理技术。 数据挖掘也可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,且进一步将其模型化的数据处理方法. 二、数据挖掘与知识发现 (DM KDD) 1、 知识发现(Knowledge Discovery in Database)过程 知识发现过程可以粗略的理解为三部曲: 数据准备(data preparation) 数据挖掘(data mining) 结果的解释评估(interpretation and evaluation) 知识发现过程示意图 数据准备又可分为三个子步骤:数据选取、数据预处理和数据变换. 数据挖掘阶段主要是确定开采的任务,如数据总结、分类、聚类、关联规则发现或序列模式发现等. 结果解释和评价主要是数据挖掘阶段发现出的模式,经过用户和机器的评价,可能存在冗余或无关的模式,这时需要将其剔除。如果有的模式不满足用户要求,需要将整个发现过程退回到发现阶段之前。 2、数据挖掘的

您可能关注的文档

文档评论(0)

管理学科 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档