现代回归和分类M.pdf

  1. 1、本文档共62页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
现代回归和分类M

现代回归和分类: 
 算法建模的回归和分类 吴喜之 1 算法建模的回归和分类 • 经典的回归和分类(判别)模型是可以写成公式的. 但是另外一 些回归和分类的方法是体现在算法之中, 其具体形式是计算机 程序. 广义地说,算法模型实际上包含了经典模型 • 起源于前计算机时代的经典统计目前大大受惠于计算机的发展, 没有计算机, 就不可能存在算法建模。 • 在处理巨大的数据集上, 在对付称为维数诅咒的大量的变量上, 在不用假定总体分布的情况时, 在对付众多竞争模型方面, 算 法建模较经典建模有很多不可比拟的优越性 • 绝大多数算法建模没有经典统计的各种关于数据分布(正态分 布, 独立性等等)的假定, 关于模型形式(如线性和非线性)的假 定. 因此, 算法建模的模型评价也不用经典的假设检验, p值等 途径, 而是用更加可靠的交叉验证的方法. 2 交叉验证 3 看计算机参考⽂献时注意: ☹ • 变量(variable)在计算机/数据库等行业也叫属性(attribute)、特征 (feature) 、特性 (characteristic) 、字段(field)等等 • 数量变量也叫“指标”,定性变量也叫“维度”等等 • 观测值(observation)也叫记录(record)、对象(object)、点(point)、向量 (vector)、模式(pattern)、事件(event)、例(case、instance)、样本☹ (sample)、或项、实体(entity)等等 • 你们需要小心! Tower of Babel 4 决策树:分类树和回归树 5 例(数据shuttle.txt)
 library(MASS);shuttle[1:10,] • 这个数据是关于美国航天飞机在各种条件下是否自动着陆的决策问题[1]。有256行 及7列。头六行为作为自变量的定性变量,而最后一列为因变量。自变量包括稳定性 (stability,取值stab/xstab)、误差大小(error,取值(MM / SS / LX / XL)、信号(sign, 取值pp / nn)、风向(wind,取值head / tail)、风力(magn,取值(Light / Medium / Strong / Out)、能见度(vis,取值yes / no) ,因变量为是否用自动着陆系统(use,取 值auto/noauto) 。 
 [1] 数据源于D. Michie (1989) Problems of computer-aided concept formation. In Applications of Expert Systems 2 , ed. J. R. Quinlan, Turing Institute Press / Addison-Wesley, pp. 310–333. 6 library(MASS) library(rpart.plot) z (a=rpart(use~.,shuttle))#拟合决策树并打印

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档