- 1、本文档共83页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
使用神经网络
? 2006 SPSS Inc. SPSS Inc. Copyright 2006 SPSS Inc. Clementine 基础培训第二部分 学习机器学习的常用技术,比如神经网络,决策树等等,并学习如何将它们应用到业务数据 培训内容 第七章 Clementine 的建模技术 第八章 神经网络 第九章 规则归纳 第十章 模型的比较和合并 第十一章 Kohonen 网络 第十二章 关联规则 第十三章 时序分析 第十四章 其它模块 第七章 Clementine的建模技术 Clementine 建模 建模主要途径 : 预测 – 预测一个数字值或符号值 关联 – 寻找可能一起发生的事件 聚类 – 寻找表现相似事物的群体 预测模型 预测模型,有时提及为监督学习,输入用来为输出预测值 Clementine 中有八个预测模型节点: 神经网络 四个不同的规则归纳方法: C5.0,QUEST,CHAID和CR Tree 线性和 Logistic 回归分析 一个序列探测方法 聚类方法 聚类方法,有时提及为无监督学习,没有输出字段的概念 Clementine中有三个聚类方法: Kohonen网络 K-means聚类 两步聚类 关联技术 关联技术可以看成是推广的预测模型,在这里数据中的字段被同时看成输入和输出 Clementine中有三个关联技术: Apriori GRI Carma 序列探测节点将会随着时间(也就是序列)寻找关联规则 什么是监督学习? 当我们知道模型输出时的一种建模技术 我们将会 “监督” 这些算法并且告诉它们什么是我们想要预测的 什么是精炼? 一个精炼的模型可以直接 放置回数据流区域 一个生成的模型创建的新字段(或者数据列)可能为: 分组 预测和关联值 什么是预测? 什么是神经网络? 在输入的基础上预测结果的一种建模技术,这些输入在隐藏层上被权重修改 和大脑内神经元的行为相似 什么是规则归纳? 显示预测的“原因”—与神经网络对比 构造规则集 消除不重要的因素 Clementine 为规则归纳提供 C5.0 ,CR Tree QUEST和CHAID算法 什么是线性回归? 一种统计技术假定数据能够以线性的关系建立模型 一般用来预测数字值 什么是 Logistic 回归? 一种与线性回归相似的统计技术,预测输入属于一个特殊输出分类的概率 用来预测一个二元结果 多项 logistic 回归预测多重结果 什么是主成分和因子分析? 通过把高度相关字段看成一样来减少字段数目的数据降维技术 主成分分析找出最能够捕捉所有输入字段差异的输入字段的线性组合 因子分析试图识别一组解释观察字段组内相关结构的概念,或者说因子 主成分分析和因子分析的目标都是找出几个能够有效概括原始字段所含信息的导出字段 什么是聚类? 一系列将具有相似特征的 情形分组在一起的技术 考虑将相似的事物分组到一起 什么是 Kohonen 网络? 将具有相似特征的情形分组在一起的聚类技术 没有建立一个预测 可以处理分类和连续字段 有时候称为一个自组织映射(SOM) ,因为结果将生成一个二维 “映射” 什么是 K-means 聚类? 更传统的聚类技术 和其它分类技术又非常紧密相关,但是对于分类数据处理的不是很好 什么是两步聚类? K-means 聚类需要终端用户去决定聚类数, 两步聚类在统计算法的基础上决定聚类数 并不像 Kohonen 那样需要大量的系统资源 步骤: 所有的记录进入最大聚类分组 初始聚类合并在一起 什么是关联规则? 寻找一起发生的事件 –在一家食品店的购买 Clementine 为关联规则提供 GRI,Apriori 和 Carma 算法 什么是序列关联? 序列关联可以使用序列算法 寻找序列或事件的顺序 何时使用何种技术: 第八章 神经网络 第八章 神经网络 内容 介绍神经网络节点 创建一个神经网络 介绍生成的模型面板 浏览并解释结果 评估模型 目的 展示如何在 Clementine 中创建一个神经网络,浏览生成的模型并解释输出结果 神经网络 设置变量类型 过度训练模型 敏感性分析 生成的模型面板 理解神经网络结果 表现评估 过程: 训练模型 测试模型 评估模型 不要单独使用训练数据评估模型的表现! 为什么? 在测试数据上模型的表现有可能恶化,因为模型没有一般性 – 训练过度 即使 Clementine 有 “避免过度训练” 这个选项用来确保模型的有效性 模型有可能在有偏的样本上建立 (提高,减少) 使用神经网络 建立一个神经网络用来预测字段 Risk 类型节点设置字段: ID 类型设为无类型 字段 RISK 方向设为输出 实例化类型节点 神经网络节点: 设定随机种子233 显示反馈图 生成的模型面板浏览模型 浏览输入字
文档评论(0)