[工程科技]Clementine快速上手修正过简单版.doc

下载文档 降价啦

3
0
约1.4万字
约 37页
2018-02-16 发布于浙江
举报
版权申诉
保障服务

[工程科技]Clementine快速上手修正过简单版.doc

1、本文档共37页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

[工程科技]Clementine快速上手修正过简单版

d Clementine快速上手（修正过）一、Clementine数据挖掘的基本思想数据挖掘（Data Mining）是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程，它是一种深层次的数据分析方法。随着科技的发展，数据挖掘不再只依赖在线分析等传统的分析方法。它结合了人工智能（AI）和统计分析的长处，利用人工智能技术和统计的应用程序，并把这些高深复杂的技术封装起来，使人们不用自己掌握这些技术也能完成同样的功能，并且更专注于自己所要解决的问题。 Clementine为我们提供了大量的人工智能、统计分析的模型（神经网络，关联分析，聚类分析、因子分析等），并用基于图形化的界面为我们认识、了解、熟悉这个软件提供了方便。除了这些Clementine还拥有优良的数据挖掘设计思想，正是因为有了这个工作思想，我们每一步的工作也变得很清晰。（如图一所示）如图可知，CRISP-DM Model包含了六个步骤，并用箭头指示了步骤间的执行顺序。这些顺序并不严格，用户可以根据实际的需要反向执行某个步骤，也可以跳过某些步骤不予执行。通过对这些步骤的执行，我们也涵盖了数据挖掘的关键部分。商业理解(Business understanding)：商业理解阶段应算是数据挖掘中最重要的一个部分，在这个阶段里我们需要明确商业目标、评估商业环境、确定挖掘目标以及产生一个项目计划。数据理解(Data understanding)：数据是我们挖掘过程的“原材料”，在数据理解过程中我们要知道都有些什么数据，这些数据的特征是什么，可以通过对数据的描述性分析得到数据的特点。数据准备(Date preparation)：在数据准备阶段我们需要对数据作出选择、清洗、重建、合并等工作。选出要进行分析的数据，并对不符合模型输入要求的数据进行规范化操作。建模(Modeling)：建模过程也是数据挖掘中一个比较重要的过程。我们需要根据分析目的选出适合的模型工具，通过样本建立模型并对模型进行评估。模型评估(Evaluation)：并不是每一次建模都能与我们的目的吻合，评价阶段旨在对建模结果进行评估，对效果较差的结果我们需要分析原因，有时还需要返回前面的步骤对挖掘过程重新定义。结果部署(Deployment)：这个阶段是用建立的模型去解决实际中遇到的问题，它还包括了监督、维持、产生最终报表、重新评估模型等过程。二、Clementine的基本操作方法 1.操作界面的介绍 1.1数据流程区 Clementine在进行数据挖掘时是基于数据流程形式，从读入数据到最后的结果显示都是由流程图的形式显示在数据流程区内。数据的流向通过箭头表示，每一个结点都定义了对数据的不同操作，将各种操作组合在一起便形成了一条通向目标的路径。数据流程区是整个操作界面中最大的部分，整个建模过程以及对模型的操作都将在这个区域内执行。我们可以通过文件(File）－新建流(new stream)新建一个空白的数据流，也可以打开已有的数据流。所有在一个运行期内打开的数据流都将保存在管理器的Stream栏下。 1.2选项面板选项面板横跨于Clementine操作界面的下部，它被分为收藏夹（Favorites）、数据源（Sources）、记录选项（Record Ops）、字段选项（Fields Ops）、图形（Graphs）、建模（Modeling）、输出（Output）、导出八个栏，其中每个栏目包含了具有相关功能的结点。结点是数据流的基本组成部分，每一个结点拥有不同的数据处理功能。设置不同的栏是为了将不同功能的结点分组，下面我们介绍各个栏的作用。数据源(Sources)：该栏包含了能读入数据到Clementine的结点。例如Var. File结点读取自由格式的文本文件到Clementine，SPSS File读取spss文件到Clementine。记录选项(Record Ops)：该栏包含的结点能对数据记录进行操作。例如筛选出满足条件的记录（select）、将来自不同数据源的数据合并在一起（merge）、向数据文件中添加记录(append)等。字段选项(Field Ops)：该栏包含了能对字段进行操作的结点。例如过滤字段（filter）能让被过滤的字段不作为模型的输入、导出（derive）结点能根据用户定义生成新的字段，同时我们还可以定义字段的数据格式。图形(Graphs)：该栏包含了众多的图形结点，这些结点用于在建模前或建模后将数据由图形形式输出。建模(Modeling)：该栏包含了各种已封装好的模型，例如神经网络（Neural Net）、决策树（C5.0）等。这些模型能