数据挖掘要点整理.doc

下载文档 降价啦

19
0
约8.79千字
约 12页
2017-05-13 发布于河南
举报
版权申诉
保障服务

数据挖掘要点整理.doc

1、本文档共12页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘要点整理

金融数据挖掘各章主要知识点第一第二章： 1．数据挖掘的定义和数据挖掘的基本功能模块；数据挖掘是从大量的、不完全的、有噪音的、模糊的、随机的实际数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘技术中比较成熟的主要功能模块 1、特征化、比较与关联规则挖掘特征化就是总结某类样本的主要特征。比较是分析不同组样本之间的最显著的差异是什么？关联规则挖掘就是发现对象的各个指标之间具有怎样的潜在关联性； 2、分类与预测分类与预测就是建立某种分类规则，根据这种规则可以判断某些样本分别属于哪一类别。分类是对离散变量的预测，而预测则是对连续变量的预测； 3、聚类分析聚类分析的目的是将数据集划分为合理的几类，以描述各类的区别。与分类不同，分类是已知类别，建立分类规则，目的是确定新的对象归属于哪个类别。聚类分析中，要划分的类别是未知的，目的也不是确定新的对象的归属。 4、序列发现（时间序列的数据挖掘）假设历史为重演，发掘具有预测价值的图形（时间序列）、建立交易规则。异常数据挖掘发掘海量数据库中的异常数据，建立预警、预报系统。如数据挖掘在反洗钱中的应用。利用数据挖掘建立宏观经济的预警系统等。 2．数据挖掘的基本类型：描述式挖掘与预测式挖掘； 1、描述式数据挖掘：以简洁、概要的方式描述数据，并提供数据中的有用信息。 2、预测性数据挖掘：分析数据，建立一个或一组分类模型或预测模型，利用模型预测新的对象的最有可能的归属。 3．将Excel数据集转化为SAS数据集、数据挖掘数据集的具体方法；将Excel数据集保存为Excel4.0工作表；打开SAS软件，按照步骤导入外部数据库，导入的数据集可以临时保存在Work库标记下（退出SAS系统后，导入的数据集将丢失），也可以长期保存在SASUSER库标记下。由于6.12版本的SAS软件并没有汉化，因此数据集中的变量名中不要出现中文。具体步骤（通过下拉菜单的方式）： File / import，在显示窗口中选择外部数据集类型（现在可选Excel 5 or 7 spreadsheet 或者选择Excel 4 spreadsheet），点击next键；选择外部数据集所在的路径，打开后，点击next键；在显示窗口中选择库标记（系统默认的库标记为work），给定要建立的SAS数据集的名称，点击Finish键；系统将在LOG窗口中给出所建立的SAS数据集的信息。注意：如果出现错误，SAS系统将会以其他颜色的字符来提示出错信息。完成输入外部数据集后，可以通过下拉菜单： Globals / Analyze / interactive data analysis的方式，对建立好的数据集进行检查。 4．一些重要的SAS函数：计算收益率、正态分布的分布值、二项分布的分布值、Logistic分布的概率值、均匀分布的随机抽样数；计算收益率：r=log(p)-log(lag1(p)); //r,p自己定义的变量名正态分布的分布值：p=probnorm(x); 二项分布的分布值见例题；例：利用历史模拟法和参数方法（正态分布假设）构建某金融机构资产组合的VaR模型，取时，在一年中（252个交易日）两个模型分别具有3个、14个例外数，试检验这两个模型是否高估或低估了风险。写出相应的SAS程序(检验的显著性水平为0.05)。 Data a; P1=probbnml(0.03, 252，3); P2=1-probbnml(0.03, 252, 13); Run; 如果p10.05，则模型了高估了风险；如果p20.05，则模型2低估了风险。 5．SAS数据库编辑中的一些重要命令的使用 ①SAS函数表达式； ②modify；if …then的使用方法； ③set与merge、drop与keep、or与and的使用与区别；如果两个（或多个）数据库的结构完全一样，即数据库的变量名、变量类型、变量排序一样，则可以通过set命令来对这些数据库进行纵向合并。如果横向需要合并两个数据库（增加新变量），可以使用merge命令。横向合并数据库时，要求两个数据库没有相同的变量名，否则，第二个数据库的同名变量就会在新数据库中失去。 Keep保留变量，Drop删除变量 Or是“或”运算，and是“且”运算，一般用于逻辑判断语句 ④利用sort命令对变量进行排序的方法； ⑤在数据库中生成均匀分布的随机数的SAS命令； Normal(seed)//产生标准正态分布的随机数 Uniform(seed)//产生[0,1]上均匀的随机数 Seed选取奇数 ⑥转换语句if …then…else的使用方法例：写出的SAS表达式 z=log(sqrt(exp(x)+2*x))+log((x*x)/(3*y)); 例