- 1、本文档共26页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SPSS_Clementine_数据挖掘入门.
SPSS?Clementine是Spss公司收购ISL获得的数据挖掘工具。在Gartner的客户数据挖掘工具评估中,仅有两家厂商被列为领导者:SAS和SPSS。SAS获得了最高ability to execute评分,代表着SAS在市场执行、推广、认知方面有最佳表现;而SPSS获得了最高的completeness of vision,表明SPSS在技术创新方面遥遥领先。?
客户端基本界面
?
?????? SPSS Clementine(在此简称clementine)在安装好后会自动启用服务,服务端的管理需要使用SPSS Predictive Enterprise Manager,在服务端clementine没有复杂的管理工具,一般的数据挖掘人员通过客户端完成所有工作。下面就是clementine客户端的界面。
?
一看到上面这个界面,我相信只要是使用过SSIS+SSAS部署数据挖掘模型的,应该已经明白了六、七分。是否以跃跃欲试了呢,别急,精彩的还在后面 ^_’
?
项目区
?
顾名思义,是对项目的管理,提供了两种视图。其中CRISP-DM (Cross Industry Standard Process for Data Mining,数据挖掘跨行业标准流程)是由SPSS、DaimlerChrysler(戴姆勒克莱斯勒,汽车公司)、NCR(就是那个拥有Teradata的公司)共同提出的。Clementine里通过组织CRISP-DM的六个步骤完成项目。在项目中可以加入流、节点、输出、模型等。
?
工具栏
?
工具栏总包括了ETL、数据分析、挖掘模型工具,工具可以加入到数据流设计区中,跟SSIS中的数据流非常相似。Clementine中有6类工具。
源工具(Sources)
相当SSIS数据流中的源组件啦,clementine支持的数据源有数据库、平面文件、Excel、维度数据、SAS数据、用户输入等。
记录操作(Record Ops)和字段操作(Field Ops)
相当于SSIS数据流的转换组件,Record Ops是对数据行转换,Field Ops是对列转换,有些类型SSIS的异步输出转换和同步输出转换(关于SSIS异步和同步输出的概念,详见拙作:/esestt/archive/2007/06/03/769411.html)。
图形(Graphs)
用于数据可视化分析。
输出(Output)
Clementine的输出不仅仅是ETL过程中的load过程,它的输出包括了对数据的统计分析报告输出。
在ver 11,Output中的ETL数据目的工具被分到了Export的工具栏中。
模型(Model)
Clementine中包括了丰富的数据挖掘模型。
数据流设计区
?
这个没什么好说的,看图就知道了,有向的箭头指明了数据的流向。Clementine项目中可以有多个数据流设计区,就像在PhotoShop中可以同时开启多个设计图一样。
比如说,我这里有两个数据流:Stream1和Stream2。通过在管理区的Streams栏中点击切换不同的数量流。
?
管理区
?
管理区包括Streams、Outputs、Models三栏。Streams上面已经说过了,是管理数据流的。
Outputs
不要跟工具栏中的输出搞混,这里的Outputs是图形、输出这类工具产生的分析结果。例如,下面的数据源连接到矩阵、数据审查、直方图工具,在执行数据流后,这个工具产生了三个输出。在管理区的Outputs栏中双击这些输出,可看到输出的图形或报表。
Models
经过训练的模型会出现在这一栏中,这就像是真表(Truth Table)的概念那样,训练过的模型可以加入的数据流中用于预测和打分。另外,模型还可以导出为支持PMML协议的XML文件,但是PMML没有给定所有模型的规范,很多厂商都在PMML的基础上对模型内容进行了扩展,Clementine除了可以导出扩展的SPSS SmartScore,还可以导出标准的PMML 3.1。
下面使用Adventure Works数据库中的Target Mail作例子,通过建立分类树和神经网络模型,决策树用来预测哪些人会响应促销,神经网络用来预测年收入。
Target Mail数据在SQL Server样本数据库AdventureWorksDW中的dbo.vTargetMail视图,关于Target Mail详见:
/zh-cn/library/ms124623.aspx#DataMining
或者我之前的随笔:
/esestt/archive/2007/06/06/773705.html
1.?定义数据源
将一个Datebase源组件加入到数据流设计区,双击组件,设置数据源为dbo.vTarget
您可能关注的文档
- SPEEDFAN实现风扇转速自动调节设置方法..doc
- speedofgroundwaterflowcycleongroundwaterpollutioninfluenceofcroppingpatternsongroundw..doc
- SpeedListWords..doc
- Sphinx全文索引安装教程..doc
- SportScience..doc
- SPM凡尔体P105741总成..doc
- SPPCOP028-2011进货检验和试验控制程序。..doc
- SPORTSTAR系列户外功能表图文详解..doc
- spg立式管道屏蔽泵..doc
- Spring 框架..docx
- 2025年中国水晶首饰行业市场运营态势分析及投资前景预测报告.docx
- 中国采盐行业市场运营现状及投资规划研究建议研究报告.docx
- 2025年中国废纸回收利用行业市场全景评估及投资前景展望报告.docx
- 中国汽车修理行业未来发展趋势分析及投资规划建议研究报告.docx
- 2025年公司年会发言稿范文(二).docx
- 2020-2025年中国足球培训机构行业市场深度分析及发展前景预测报告.docx
- 2019-2025年中国螺旋藻片行业市场调研分析及投资战略咨询报告.docx
- 2025年中国工业用电炉市场发展现状调研及投资趋势前景分析报告.docx
- 2025年中国钟表修理市场运行态势及行业发展前景预测报告.docx
- 2020-2025年中国收藏纪念礼品行业市场调查研究及投资战略咨询报告.docx
文档评论(0)