[工程科技]Clementine快速上手修正过简单版.doc

[工程科技]Clementine快速上手修正过简单版.doc

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[工程科技]Clementine快速上手修正过简单版

d Clementine快速上手 (修正过) 一、Clementine数据挖掘的基本思想 数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取 隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,它是一种深层次的数据分 析方法。随着科技的发展,数据挖掘不再只依赖在线分析等传统的分析方法。 它结合了人工智能(AI)和统计分析的长处,利用人工智能技术和统计的应用程序,并把这些高深复 杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决 的问题。 Clementine为我们提供了大量的人工智能、统计分析的模型(神经网络,关联分析,聚类分析、因子分析等),并用基于图形化的界面为我们认识、了解、熟悉这个软件提供了方便。除了这些Clementine还拥有优良的数据挖掘设计思想,正是因为有了这个工作思想,我们每一步的工作也变得很清晰。(如 图一所示) 如图可知,CRISP-DM Model包含了六个步骤,并用箭头指示了步骤间的执行顺序。这些顺序并不 严格,用户可以根据实际的需要反向执行某个步骤,也可以跳过某些步骤不予执行。通过对这些步骤 的执行,我们也涵盖了数据挖掘的关键部分。 商业理解(Business understanding):商业理解阶段应算是数据挖掘中最重要的一个部分,在这个阶段里我们需要明确商业目标、评估商业环境、确定挖掘目标以及产生一个项目计划。 数据理解(Data understanding):数据是我们挖掘过程的“原材料”,在数据理解过程中我们要知道都有些什么数据,这些数据的特征是什么,可以通过对数据的描述性分析得到数据的特点。 数据准备(Date preparation):在数据准备阶段我们需要对数据作出选择、清洗、重建、合并等工 作。选出要进行分析的数据,并对不符合模型输入要求的数据进行规范化操作。 建模(Modeling):建模过程也是数据挖掘中一个比较重要的过程。我们需要根据分析目的选出适 合的模型工具,通过样本建立模型并对模型进行评估。 模型评估(Evaluation):并不是每一次建模都能与我们的目的吻合,评价阶段旨在对建模结果进行评估,对效果较差的结果我们需要分析原因,有时还需要返回前面的步骤对挖掘过程重新定义。 结果部署(Deployment):这个阶段是用建立的模型去解决实际中遇到的问题,它还包括了监督、维持、 产生最终报表、重新评估模型等过程。 二、Clementine的基本操作方法 1.操作界面的介绍 1.1数据流程区 Clementine在进行数据挖掘时是基于数据流程形式,从读入数据到最后的结果显示都是由流程图 的形式显示在数据流程区内。数据的流向通过箭头表示,每一个结点都定义了对数据的不同操作,将 各种操作组合在一起便形成了一条通向目标的路径。数据流程区是整个操作界面中最大的部分,整个 建模过程以及对模型的操作都将在这个区域内执行。我们可以通过文件(File)-新建流(new stream)新建一个空白的数据流,也可以打开已有的数据流。所有在一个运行期内打开的数据流都将保 存在管理器的Stream栏下。 1.2选项面板 选项面板横跨于Clementine操作界面的下部,它被分为收藏夹(Favorites)、数据源(Sources)、 记录选项(Record Ops)、字段选项(Fields Ops)、图形(Graphs)、建模(Modeling)、输出 (Output)、导出八个栏,其中每个栏目包含了具有相关功能的结点。结点是数据流的基本组成部 分,每一个结点拥有不同的数据处理功能。设置不同的栏是为了将不同功能的结点分组,下面我们 介绍各个栏的作用。 数据源(Sources):该栏包含了能读入数据到Clementine的结点。例如Var. File结点读取自由格式 的文本文件到Clementine,SPSS File读取spss文件到Clementine。 记录选项(Record Ops):该栏包含的结点能对数据记录进行操作。例如筛选出满足条件的记录 (select)、将来自不同数据源的数据合并在一起(merge)、向数据文件中添加记录(append)等。 字段选项(Field Ops):该栏包含了能对字段进行操作的结点。例如过滤字段(filter)能让被过 滤的字段不作为模型的输入、导出(derive)结点能根据用户定义生成新的字段,同时我们还可以定义 字段的数据格式。 图形(Graphs):该栏包含了众多的图形结点,这些结点用于在建模前或建模后将数据由图形形式 输出。 建模(Modeling):该栏包含了各种已封装好的模型,例如神经网络(Neural Net)、决策树(C5.0) 等。这些模型能

文档评论(0)

hhuiws1482 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:5024214302000003

1亿VIP精品文档

相关文档