- 1、本文档共26页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
clementine的中文教程
一、Clementine数据挖掘的基本思想
数据挖掘(Data Mining )是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数
据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,它是一
种深层次的数据分析方法。随着科技的发展,数据挖掘不再只依赖在线分析等传统的分析方法。
它结合了人工智能(AI )和统计分析的长处,利用人工智能技术和统计的应用程序,并把这些
高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于
自己所要解决的问题。
Clementine为我们提供了大量的人工智能、统计分析的模型(神经网络,关联分析,聚类分
析、因子分析等),并用基于图形化的界面为我们认识、了解、熟悉这个软件提供了方便。除了
这些Clementine还拥有优良的数据挖掘设计思想,正是因为有了这个工作思想,我们每一步的工
作也变得很清晰。(如图一所示)
图一 CRISP-DM process model
如图可知,CRISP-DM Model包含了六个步骤,并用箭头指示了步骤间的执行顺序。这些顺
序并不严格,用户可以根据实际的需要反向执行某个步骤,也可以跳过某些步骤不予执行。通
过对这些步骤的执行,我们也涵盖了数据挖掘的关键部分。
Business understanding :商业理解阶段应算是数据挖掘中最重要的一个部分,在这个阶段
里我们需要明确商业目标、评估商业环境、确定挖掘目标以及产生一个项目计划。
Data understanding :数据是我们挖掘过程的“原材料”,在数据理解过程中我们要知道都有些什么数据,这些
数据的特征是什么,可以通过对数据的描述性分析得到数据的特点。
Date preparation :在数据准备阶段我们需要对数据作出选择、清洗、重建、合并等工作。
选出要进行分析的数据,并对不符合模型输入要求的数据进行规范化操作。
Modeling :建模过程也是数据挖掘中一个比较重要的过程。我们需要根据分析目的选出适
合的模型工具,通过样本建立模型并对模型进行评估。
Evaluation :并不是每一次建模都能与我们的目的吻合,评价阶段旨在对建模结果进行评估,
对效果较差的结果我们需要分析原因,有时还需要返回前面的步骤对挖掘过程重新定义。
Deployment :这个阶段是用建立的模型去解决实际中遇到的问题,它还包括了监督、维持、
产生最终报表、重新评估模型等过程。
二、Clementine的基本操作方法
1、操作界面的介绍
图二 Clementine操作界面
1.1数据流程区
Clementine在进行数据挖掘时是基于数据流程形式,从读入数据到最后的结果显示都是由
流程图的形式显示在数据流程区内。数据的流向通过箭头表示,每一个结点都定义了对数据的
不同操作,将各种操作组合在一起便形成了一条通向目标的路径。
数据流程区是整个操作界面中最大的部分,整个建模过程以及对模型的操作都将在这个区
域内执行。我们可以通过File -new stream新建一个空白的数据流,也可以打开已有的数据流。
所有在一个运行期内打开的数据流都将保存在管理器的Stream栏下。
1.2选项面板
选项面板横跨于Clementine操作界面的下部,它被分为Favorites 、Sources、Record Ops 、Fields
Ops、Graphs、Modeling 、Output七个栏,其中每个栏目包含了具有相关功能的结点。
结点是数据流的基本组成部分,每一个结点拥有不同的数据处理功能。设置不同的栏是为了将
不同功能的结点分组,下面我们介绍各个栏的作用。
Sources :该栏包含了能读入数据到Clementine的结点。例如Var. File结点读取自由格式的文
本文件到Clementine,SPSS File读取spss文件到Clementine 。
Record Ops :该栏包含的结点能对数据记录进行操作。例如筛选出满足条件的记录(select )、
将来自不同数据源的数据合并在一起(merge )、向数据文件中添加记录(append)等。
Fields Ops :该栏包含了能对字段进行操作的结点。例如过滤字段(filter )能让被过滤的字
段不作为模型的输入、derive结点能根据用户定义生成新的字段,同时我们还可以定义字段的数
据格式。
Graphs:该栏
文档评论(0)