- 1、本文档共62页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
现代统计方法及案例分析 ——基于数据挖掘的数据准备 朱建平 厦门大学经济学院统计系 厦门大学数据挖掘研究中心 xmjpzhu@xmu.edu.cn 报告内容及目的 让大家了解数据挖掘的概念,认识海量数据分析时所遇到的问题,在此基础上,介绍原始大型数据库的基本表述和特征,了解数据准备的不同技术,比较去除丢失值的不同方法,构造时间相关数据的统一表述方法,实现一些数据预处理技术。其目的是让大家从中领悟现代统计方法的基本思想。 现代统计方法及案例分析 一、数据挖掘的定义 二、数据挖掘与知识发现 三、海量数据分析中遇到的问题 四、数据准备 1、数据选择 2、数据预处理 3、数据变换 What are these numbers trying to Tell me??? Matrix Codes 99:8179,7954, 舅舅:不要吃酒,吃酒误事, 76269,8406,9405, 吃了二两酒,不是动怒,就是动武, 7918934,1.91817。 吃酒要被酒杀死,一点酒也不要吃。 What Are These Numbers Trying to Tell Us? 7 ÷2 2≦x≦3 40 ÷ 6 二四六八 0000 1 × 1 = 1 10002 =100×100×100 7/8 一、数据挖掘的技术定义与商业定义 什么是数据挖掘(Data Mining)? 关于定义取决于定义者的观点和背景,各人的说法不一. Friedman, J. H.在技术报告Data Mining and Statistics: Whats The Connection? 中总结出了多家关于数据挖掘的定义(也有对知识发现而言的): Fayyad提出数据挖掘是一个确定数据中有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程. Zekulin的说法是数据挖掘是一个从大型数据库中提取以前未知的、可理解的、可执行的信息,并用它来进行关键的商业决策的过程. Ferruzza给出数据挖掘是用在知识发现过程,来辩识存在于数据中的未知关系和模式的一些方法. Jonn提到数据挖掘是发现数据中有益模式的过程. Parsaye定义数据挖掘是我们为那些未知的信息模式而研究大型数据集的一个决策支持过程. 这些表达方式虽然不同,但从各自的角度描述出了对数据挖掘的理解.这里我们主要从技术和商业的角度给出数据挖掘的定义. 1、 数据挖掘的技术定义 从技术角度,数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程. 它是涉及机器学习、模式识别、统计学、人工智能、数据库管理及数据可视化等学科的边缘学科. 这个定义包括好几层含义: 数据源必须是真实的、大量的、含噪声的; 发现的是用户感兴趣的知识; 发现的知识要可接受、可理解、可运用; 这些知识是相对的,是有特定前提和约束条件的,在特定领域中具有实际应用价值. 什么是知识呢? 从广义上理解,数据、信息是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识. 人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样. 2、数据挖掘的商业定义 从商业应用角度看,数据挖掘是一种新的商业信息处理技术。 数据挖掘也可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,且进一步将其模型化的数据处理方法. 二、数据挖掘与知识发现(DM KDD) 1、 知识发现(Knowledge Discovery in Database)过程 知识发现过程可以粗略的理解为三部曲: 数据准备(data preparation) 数据挖掘(data mining) 结果的解释评估(interpretation and evaluation) 知识发现过程示意图 数据准备又可分为三个子步骤:数据选取、数据预处理和数据变换. 数据挖掘阶段主要是确定开采的任务,如数据总结、分类、聚类、关联规则发现或序列模式发现等. 结果解释和评价主要是数据挖掘阶段发现出的模式,经过用户和机器的评价,可能存在冗余或无关的模式,这时需要将其剔除。如果有的模式不满足用户要求,需要将整个发现过程退回到发现阶段之前。 2、数据挖掘的
您可能关注的文档
- 201206月银川房地产市场月度监测分析报告.pdf
- SCI收录期刊及投稿指南新鲜刚出炉的.pdf
- 八年级物理第十四课—电流的强弱及探究串并联电路的电.pdf
- 毕业设计零件辊座的加工工艺规程及专用夹具设计.doc
- 第五讲事实数据型文献.ppt
- 第五章现行市价法运用理论研究黄传海.ppt
- 电工基础磁路网络与系统分析.ppt
- 电子商务毕业论文之花诗丹妮女鞋.doc
- 高跟鞋设计调研报告.ppt
- 旱灾风险的特征及其防范研究由西南旱灾和冬麦区大旱引.pdf
- 人教新目标版英语九年级 中考模拟学情评估(三)(含答案).pdf
- 上海市风华中学2024-2025学年高三上学期9月阶段测试英语试题(无答案).pdf
- 统编版2024-2025学年语文六年级上册期末检测卷(有答案).pdf
- 人教新目标版英语九年级第二学期全册学情评估(含答案).pdf
- 内蒙古自治区巴彦淖尔市杭锦后旗第六中学2024-2025学年八年级上学期阶段性测试历史试题(解析版).pdf
- 湖南省娄底市涟源市部分学校2024-2025学年高一上学期9月月考语文试题 Word版无答案.pdf
- 湖南省衡阳市常宁市2023-2024学年七年级上学期期末考试英语试题.pdf
- 湖南省娄底市涟源市部分学校2024-2025学年高一上学期9月月考语文试题 Word版含解析.pdf
- 江苏省泰州市姜堰区城西实验学校2024-2025学年部编版九年级上学期月考历史试卷(原卷版).pdf
- 内蒙古伊金霍洛旗2022-2023学年七年级上学期期末考试英语试题.pdf
最近下载
- 人教版2024新版Starter Unit 3 单元检测卷-2024-2025学年七年级英语上册.docx VIP
- 初中数学不等式精选典型试题及答案.doc
- 氓-ppt课件完整版.ppt
- 世界生物多样性保护.ppt VIP
- 人教版生物学八年级上册 生物圈中的其他生物 作业设计样例.docx
- 深度保洁服务合同范本.docx
- 《华为销售培训》课件.pptx VIP
- 备战2024年中考语文名著阅读考点梳理:名著试题精选60题(二)真题演练(原卷版+解析版).docx VIP
- 【课件】体量与力量——雕塑的美感+课件高中美术人美版(2019)美术鉴赏.pptx VIP
- 《液压与气压技术》讲义(完整版).doc
文档评论(0)