[所有分类]数据挖掘第二部分SPSS_clementine11培训2cindy.ppt

下载文档 降价啦

2
0
约7.07千字
约 83页
2018-02-16 发布于浙江
举报
版权申诉
保障服务

[所有分类]数据挖掘第二部分SPSS_clementine11培训2cindy.ppt

1、本文档共83页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

[所有分类]数据挖掘第二部分SPSS_clementine11培训2cindy

? 2006 SPSS Inc. SPSS Inc. Copyright 2006 SPSS Inc. Clementine 基础培训第二部分学习机器学习的常用技术，比如神经网络，决策树等等，并学习如何将它们应用到业务数据培训内容第七章 Clementine 的建模技术第八章神经网络第九章规则归纳第十章模型的比较和合并第十一章 Kohonen 网络第十二章关联规则第十三章时序分析第十四章其它模块第七章 Clementine的建模技术 Clementine 建模建模主要途径：预测 – 预测一个数字值或符号值关联 – 寻找可能一起发生的事件聚类 – 寻找表现相似事物的群体预测模型预测模型，有时提及为监督学习，输入用来为输出预测值 Clementine 中有八个预测模型节点：神经网络四个不同的规则归纳方法： C5.0，QUEST，CHAID和CR Tree 线性和 Logistic 回归分析一个序列探测方法聚类方法聚类方法，有时提及为无监督学习，没有输出字段的概念 Clementine中有三个聚类方法: Kohonen网络 K-means聚类两步聚类关联技术关联技术可以看成是推广的预测模型，在这里数据中的字段被同时看成输入和输出 Clementine中有三个关联技术： Apriori GRI Carma 序列探测节点将会随着时间（也就是序列）寻找关联规则什么是监督学习？当我们知道模型输出时的一种建模技术我们将会 “监督” 这些算法并且告诉它们什么是我们想要预测的什么是精炼？一个精炼的模型可以直接放置回数据流区域一个生成的模型创建的新字段（或者数据列）可能为：分组预测和关联值什么是预测？什么是神经网络？在输入的基础上预测结果的一种建模技术，这些输入在隐藏层上被权重修改和大脑内神经元的行为相似什么是规则归纳？显示预测的“原因”—与神经网络对比构造规则集消除不重要的因素 Clementine 为规则归纳提供 C5.0 ，CR Tree QUEST和CHAID算法什么是线性回归？一种统计技术假定数据能够以线性的关系建立模型一般用来预测数字值什么是 Logistic 回归？一种与线性回归相似的统计技术，预测输入属于一个特殊输出分类的概率用来预测一个二元结果多项 logistic 回归预测多重结果什么是主成分和因子分析？通过把高度相关字段看成一样来减少字段数目的数据降维技术主成分分析找出最能够捕捉所有输入字段差异的输入字段的线性组合因子分析试图识别一组解释观察字段组内相关结构的概念，或者说因子主成分分析和因子分析的目标都是找出几个能够有效概括原始字段所含信息的导出字段什么是聚类？一系列将具有相似特征的情形分组在一起的技术考虑将相似的事物分组到一起什么是 Kohonen 网络？将具有相似特征的情形分组在一起的聚类技术没有建立一个预测可以处理分类和连续字段有时候称为一个自组织映射（SOM），因为结果将生成一个二维 “映射” 什么是 K-means 聚类？更传统的聚类技术和其它分类技术又非常紧密相关，但是对于分类数据处理的不是很好什么是两步聚类？ K-means 聚类需要终端用户去决定聚类数, 两步聚类在统计算法的基础上决定聚类数并不像 Kohonen 那样需要大量的系统资源步骤：所有的记录进入最大聚类分组初始聚类合并在一起什么是关联规则？寻找一起发生的事件 –在一家食品店的购买 Clementine 为关联规则提供 GRI，Apriori 和 Carma 算法什么是序列关联？序列关联可以使用序列算法寻找序列或事件的顺序何时使用何种技术: 第八章神经网络第八章神经网络内容介绍神经网络节点创建一个神经网络介绍生成的模型面板浏览并解释结果评估模型目的展示如何在 Clementine 中创建一个神经网络，浏览生成的模型并解释输出结果神经网络设置变量类型过度训练模型敏感性分析生成的模型面板理解神经网络结果表现评估过程：训练模型测试模型评估模型不要单独使用训练数据评估模型的表现！为什么？在测试数据上模型的表现有可能恶化，因为模型没有一般性 – 训练过度即使 Clementine 有 “避免过度训练” 这个选项用来确保模型的有效性模型有可能在有偏的样本上建立（提高，减少）使用神经网络建立一个神经网络用来预测字段 Risk 类型节点设置字段： ID 类型设为无类型字段 RISK 方向设为输出实例化类型节点神经网络节点：设定随机种子233 显示反馈图生成的模型面板浏览模型浏览输入字