网站大量收购闲置独家精品文档,联系QQ:2885784924

SAS数据挖掘方法论SEMMA-Read.DOCVIP

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SAS数据挖掘方法论SEMMA-Read

SAS数据挖掘白皮书 美国SAS软件研究所公司 2000年8 月 目 录 第一章 总括 3 第二章 SAS数据挖掘方法论 ─ SEMMA 6 第三章 深层统计分析与预测套件 10 功能 11 客户机/服务器方式 14 浏览器/服务器方式 15 第四章 数据挖掘套件 16 功能 16 客户机/服务器方式 20 浏览器/服务器方式 20 第一章 总括 早期的计算机主要就是用来进行数据处理或称数值计算的。后来随着计算机技术及其周边设备和通讯能力的发展,计算机更多地用于了大量繁杂事务的在线处理,生产设备的实时控制等。在此过程中,计算机系统积累了越来越多的数据,数据处理的任务就更加繁重。到今天,即使是发展中的我们中国,在一个企业中有数以几十或上百GB、甚至TB计的生产经营数据已不是什么希奇的事情了。企业的数据和由此而产生的信息是企业的重要财富。它最真实、具体的反映了企业运作的本质状况。但是,面对堆积如“山”的数据,你可能并未看清企业运作的本质规律是什么,或者说你至少是未能全部看清楚。面对激烈竞争的市场经济,企业的经营和管理者任何不符合客观事物规律性的决策都会给企业带来损失,甚至失败。运用有力的工具,不断地探索企业成败、得失的原委,并以此不断完善企业运作,这是每一个成功的企业家必不可少的工作任务。 美国SAS软件从60年代在北卡洲立大学开创伊始就致力于计算机数据处理的研究。几十年来无数的成功事例使人们推崇SAS为国际上标准的数理统计分析软件;进而,SAS的丰富数据采集、数据管理、数据分析和信息展现的能力,又使之成为决策支持的最好的工具;近几年,SAS又推出了套装的SAS/Enterprise Miner这一企业级的数据处理分析和决策支持软件包。SAS系统的软件和这些软件运用的无数成功经验,一定能帮你从企业堆积如“山”的数据中“挖掘”出隐藏着的规律性,以支持你正确的经营决策。 SAS的数据挖掘软件集成了一系列有效的技术手段全面地支持你的工作。首先是支持你的数据重组工作。在你的企业或组织中或许已经有了成功的各种业务系统,其中的数据体系对应着一项项事务处理和一个又一个控制环节,它们定能完美的支持其原有的工作。但当你从企业级的角度去审视,并想进一步分析处理时,你会感到这些数据过于分散,数量越来越大,并难以整合。美国数据挖掘技术开拓者Gregory Piatetsky-Shapiro曾戏言说:“原来曾希望计算机系统成为我们智慧的源泉,但从中涌出的却是洪水般的数据!”其实不必埋怨数据太多,也不必埋怨原来的数据结构不好,它们是适应原有工作任务的,只是不适合你现在的要求而已。要支持你的企业级的决策,就是需要“洪水般的数据量”,但是要面向企业级的工作任务对其进行重组。数据仓库系统支持你进行数据重组,并以全新的数据、信息的结构形式支持你的全新的工作方式。这在前面五篇连载文章中已作了详尽的介绍。建立数据仓库,这是进一步能有成效的进行数据挖掘的基础工作。 要看清企业或组织运作的状况,第一步就是能查询到反映你所关心事情的相应数据、信息。以SAS的多维数据库产品MDDB构造的数据仓库从物理结构上保证了你查询的迅速、方便。E.F.Codd在提出在线分析处理OLAP概念时,多维数据结构是实现其任务的第一项要求。一些简单的决策支持所需要的就是有针对性的数据。在数据重组后的数据仓库中还建立了所谓数据市场(Data Marts),它就可以更针对决策支持的需要而设计,其中还可综合不同层次的汇总数据和跨数据仓库主题的数据。 SAS软件研究所对数据挖掘所下的定义是:数据挖掘是按照既定的业务目标,对大量的企业数据进行探索、揭示隐藏其中的规律性并进一步将之模型化的先进、有效的方法。 对数据的探索、挖掘首先要有一个明确的业务目标。一组生产数据可作生产能力的分析;可作生产成本核算的分析;亦可作影响产品质量诸因素的分析。目标决定了此后数据挖掘过程的各种运作,并导引了运作的方向。虽然说数据挖掘的业务目标在过程中不是不可修正的,也应当在工作进程中不断的进一步明确化,但其基本原则内容要保持稳定不变,否则数据挖掘工作是难以有效的进行的。 这里所指的大量企业数据最好是按照数据仓库的概念重组过的,在数据仓库中的数据、信息才能最有效的支持数据挖掘。假如所取用的数据并不足以反映企业的真实情况,当然也不可能挖掘出有用的规律。数据仓库的数据重组,首先是从企业正在运行的计算机系统中完整地将数据取出来。所谓完整,就是决策支持目标所涉及的各个环节不能有遗漏;其次各个环节的数据要按一定的规则有机、准确地衔接起来。从决策支持的主题来看,这重新组织过的数据,以极易取用的数据结构方式,全面的描述了该主题。 有了反映业务主题全貌的数据后,在进行数据的分析、探索时,对于不同的人,可能会采用不同的方式方法。Gart

文档评论(0)

zhuwo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档