- 1、本文档共37页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[工程科技]Clementine快速上手修正过简单版
d
Clementine快速上手
(修正过)
一、Clementine数据挖掘的基本思想
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取
隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,它是一种深层次的数据分
析方法。随着科技的发展,数据挖掘不再只依赖在线分析等传统的分析方法。
它结合了人工智能(AI)和统计分析的长处,利用人工智能技术和统计的应用程序,并把这些高深复
杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决
的问题。
Clementine为我们提供了大量的人工智能、统计分析的模型(神经网络,关联分析,聚类分析、因子分析等),并用基于图形化的界面为我们认识、了解、熟悉这个软件提供了方便。除了这些Clementine还拥有优良的数据挖掘设计思想,正是因为有了这个工作思想,我们每一步的工作也变得很清晰。(如
图一所示)
如图可知,CRISP-DM Model包含了六个步骤,并用箭头指示了步骤间的执行顺序。这些顺序并不
严格,用户可以根据实际的需要反向执行某个步骤,也可以跳过某些步骤不予执行。通过对这些步骤
的执行,我们也涵盖了数据挖掘的关键部分。
商业理解(Business understanding):商业理解阶段应算是数据挖掘中最重要的一个部分,在这个阶段里我们需要明确商业目标、评估商业环境、确定挖掘目标以及产生一个项目计划。
数据理解(Data understanding):数据是我们挖掘过程的“原材料”,在数据理解过程中我们要知道都有些什么数据,这些数据的特征是什么,可以通过对数据的描述性分析得到数据的特点。
数据准备(Date preparation):在数据准备阶段我们需要对数据作出选择、清洗、重建、合并等工
作。选出要进行分析的数据,并对不符合模型输入要求的数据进行规范化操作。
建模(Modeling):建模过程也是数据挖掘中一个比较重要的过程。我们需要根据分析目的选出适
合的模型工具,通过样本建立模型并对模型进行评估。
模型评估(Evaluation):并不是每一次建模都能与我们的目的吻合,评价阶段旨在对建模结果进行评估,对效果较差的结果我们需要分析原因,有时还需要返回前面的步骤对挖掘过程重新定义。
结果部署(Deployment):这个阶段是用建立的模型去解决实际中遇到的问题,它还包括了监督、维持、
产生最终报表、重新评估模型等过程。
二、Clementine的基本操作方法
1.操作界面的介绍
1.1数据流程区
Clementine在进行数据挖掘时是基于数据流程形式,从读入数据到最后的结果显示都是由流程图
的形式显示在数据流程区内。数据的流向通过箭头表示,每一个结点都定义了对数据的不同操作,将
各种操作组合在一起便形成了一条通向目标的路径。数据流程区是整个操作界面中最大的部分,整个
建模过程以及对模型的操作都将在这个区域内执行。我们可以通过文件(File)-新建流(new
stream)新建一个空白的数据流,也可以打开已有的数据流。所有在一个运行期内打开的数据流都将保
存在管理器的Stream栏下。
1.2选项面板
选项面板横跨于Clementine操作界面的下部,它被分为收藏夹(Favorites)、数据源(Sources)、
记录选项(Record Ops)、字段选项(Fields Ops)、图形(Graphs)、建模(Modeling)、输出
(Output)、导出八个栏,其中每个栏目包含了具有相关功能的结点。结点是数据流的基本组成部
分,每一个结点拥有不同的数据处理功能。设置不同的栏是为了将不同功能的结点分组,下面我们
介绍各个栏的作用。
数据源(Sources):该栏包含了能读入数据到Clementine的结点。例如Var. File结点读取自由格式
的文本文件到Clementine,SPSS File读取spss文件到Clementine。
记录选项(Record Ops):该栏包含的结点能对数据记录进行操作。例如筛选出满足条件的记录
(select)、将来自不同数据源的数据合并在一起(merge)、向数据文件中添加记录(append)等。
字段选项(Field Ops):该栏包含了能对字段进行操作的结点。例如过滤字段(filter)能让被过
滤的字段不作为模型的输入、导出(derive)结点能根据用户定义生成新的字段,同时我们还可以定义
字段的数据格式。
图形(Graphs):该栏包含了众多的图形结点,这些结点用于在建模前或建模后将数据由图形形式
输出。
建模(Modeling):该栏包含了各种已封装好的模型,例如神经网络(Neural Net)、决策树(C5.0)
等。这些模型能
您可能关注的文档
最近下载
- 《可爱的中国》新疆地方教材(小学版)教案 第二单元 美丽的新疆.pdf VIP
- 第5课 新疆是个好地方 《可爱的中国》新疆地方教材(小学版)教案.doc
- 数字普惠金融发展白皮书2019.pdf
- 《山丹丹开花红艳艳》双簧管独奏钢琴伴奏谱201107制谱.doc
- 译林版三起2024秋三年级英语上册Unit3 Are you Su Hai大单元教学设计.pdf
- 部编版语文一年级上册教学反思.pdf VIP
- 摩登家庭台词剧本第一季第一集中英双语左右对照.pdf
- 《可爱的中国》新疆地方教材(小学版)第5课--新疆是个好地方PPT课件.pptx
- (中文版) AWS D1.6 D1.6M-2007 不锈钢焊接规范.pdf
- 2022年必威体育精装版材料检测报告 SGS 亚克力ROHS10项中文版(2).pdf
文档评论(0)