河南泥鳅SLIQ一种快速可伸缩分类器ManishMehta.pptVIP

下载本文档

3
0
约3.91千字
约 26页
2017-02-22 发布于上海
举报
版权申诉

河南泥鳅SLIQ一种快速可伸缩分类器ManishMehta.ppt

1、本文档共26页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

河南泥鳅SLIQ一种快速可伸缩分类器ManishMehta

SLIQ：一种快速可伸缩分类器Manish Mehta, Rakesh Agrawal, Jorma RissanenIBM Almaden Research Center, 1996 报告人：郭新涛 2003.03.29 内容摘要决策树算法 SLIQ算法数据结构预排序与广度优先增长策略种类型字段的最佳子集生成方法 MDL剪枝 SLIQ性能评估 1. 决策树算法决策树算法 SLIQ算法数据结构预排序与广度优先增长策略种类型字段的最佳子集生成方法 MDL剪枝 SLIQ性能评估 1. 决策树算法什么是分类（Classification）？训练集待测试样本集可伸缩性（Scalability）大多数分类算法面临的共同问题：训练集受内存容量的限制。算法可伸缩性的优势：更高的准确性设计目标：一个可伸缩的分类器 1. 决策树算法什么是决策树（Decision Tree）？决策树的优点与其他分类方法相比相对较快容易转化为分类规则，也容易转化为SQL查询近似的或者更好的准确度 1. 决策树算法算法建树阶段 MakeTree (Training Data T) Partition (T);Partition (Data S) if (all points in S are in the same class) then return; evaluate splits for each attribute A Use best split found to partition S into S1 and S2; Partition (S1); Partition (S2); 剪枝阶段为什么剪枝：训练数据中的“噪声”影响最终模型的准确性。这些错误的枝条将导致利用模型时的分类错误。剪枝的方法：去除那些导致错误的枝条，在可能的自述中挑选出错率最小的字树。 1. 决策树算法可伸缩性问题研讨（1）设计目标：一个可伸缩的、能够处理大数据集的决策树以前的可伸缩性方案数据采样连续属性的离散化数据分成若干小块，分别构建决策树，然后综合成一棵最终的树面临的问题：降低了准确性决策树算法可伸缩性问题研讨（2）建树阶段关键：提高“确定最佳分裂（Best Split ）”的可伸缩性分裂指标举例，计算开销不大数值型字段，最佳分裂型如，开销主要是排序种类型字段，最佳分裂型如，开销主要是寻找最佳的子集（遍历所有子集，时间复杂度为指数级）。 1. 决策树算法可伸缩性问题研讨（3）剪枝阶段剪枝：选择导致最低错误率的子树方案一：使用原有的测试数据方案二：使用独立的数据集取样困难降低生成的模型的准确率理想的剪枝方法：快速得到简洁而且准确的决策树 2. SLIQ算法决策树算法 SLIQ算法数据结构预排序与广度优先增长策略种类型字段的最佳子集生成方法 MDL剪枝 SLIQ性能评估 2. SLIQ算法 SLIQ的优异性能可伸缩性良好缩短学习时间处理常驻磁盘的大数据集的能力：对训练数据的记录个数和训练样本的属性个数没有过多的限制处理大数据集，带来结果的准确性新的剪枝方法更简洁、准确的结果 2. SLIQ算法 SLIQ的关键词预排序广度优先增长策略常驻磁盘的数据集快速寻找子集方法 MDL剪枝 2. SLIQ算法数据结构属性表（Attribute List）每个属性有一个属性表有必要的话，属性表可以写回磁盘类表（Class List）仅有一张类表，类表必须常驻内存类表第n项，存放第n条记录的类标签。 2. SLIQ算法数据结构树结点内部节点记录必要的分类信息叶子节点代表训练集的一块数据，也就是一个类别每个节点都有一个类直方图，用来统计分类所需的必要的类别分布的信息。 2. SLIQ算法预排序与广度优先增长策略预排序的例子 2. SLIQ算法预排序与广度优先增长策略计算最佳分割的算法EvaluateSplits() for each attribute A do traverse attribute list of A for each value v in the attribute list do find the corresponding entry in the class list, and hence the corresponding class