数据挖掘要点整理.doc

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘要点整理

金融数据挖掘各章主要知识点 第一第二章: 1.数据挖掘的定义和数据挖掘的基本功能模块; 数据挖掘是从大量的、不完全的、有噪音的、模糊的、随机的实际数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 数据挖掘技术中比较成熟的主要功能模块 1、特征化、比较与关联规则挖掘 特征化就是总结某类样本的主要特征。比较是分析不同组样本之间的最显著的差异是什么?关联规则挖掘就是发现对象的各个指标之间具有怎样的潜在关联性; 2、分类与预测 分类与预测就是建立某种分类规则,根据这种规则可以判断某些样本分别属于哪一类别。分类是对离散变量的预测,而预测则是对连续变量的预测; 3、聚类分析 聚类分析的目的是将数据集划分为合理的几类,以描述各类的区别。与分类不同,分类是已知类别,建立分类规则,目的是确定新的对象归属于哪个类别。聚类分析中,要划分的类别是未知的,目的也不是确定新的对象的归属。 4、序列发现(时间序列的数据挖掘) 假设历史为重演,发掘具有预测价值的图形(时间序列)、建立交易规则。 异常数据挖掘 发掘海量数据库中的异常数据,建立预警、预报系统。如数据挖掘在反洗钱中的应用。利用数据挖掘建立宏观经济的预警系统等。 2.数据挖掘的基本类型:描述式挖掘与预测式挖掘; 1、描述式数据挖掘:以简洁、概要的方式描述数据,并提供数据中的有用信息。 2、预测性数据挖掘:分析数据,建立一个或一组分类模型或预测模型,利用模型预测新的对象的最有可能的归属。 3.将Excel数据集转化为SAS数据集、数据挖掘数据集的具体方法; 将Excel数据集保存为Excel4.0工作表; 打开SAS软件,按照步骤导入外部数据库,导入的数据集可以临时保存在Work库标记下(退出SAS系统后,导入的数据集将丢失),也可以长期保存在SASUSER库标记下。由于6.12版本的SAS软件并没有汉化,因此数据集中的变量名中不要出现中文。 具体步骤(通过下拉菜单的方式): File / import,在显示窗口中选择外部数据集类型(现在可选Excel 5 or 7 spreadsheet 或者选择Excel 4 spreadsheet),点击next键; 选择外部数据集所在的路径,打开后,点击next键; 在显示窗口中选择库标记(系统默认的库标记为work),给定要建立的SAS数据集的名称,点击Finish键; 系统将在LOG窗口中给出所建立的SAS数据集的信息。 注意:如果出现错误,SAS系统将会以其他颜色的字符来提示出错信息。 完成输入外部数据集后,可以通过下拉菜单: Globals / Analyze / interactive data analysis的方式,对建立好的数据集进行检查。 4.一些重要的SAS函数:计算收益率、正态分布的分布值、二项分布的分布值、Logistic分布的概率值、均匀分布的随机抽样数; 计算收益率:r=log(p)-log(lag1(p)); //r,p自己定义的变量名 正态分布的分布值:p=probnorm(x); 二项分布的分布值见例题; 例:利用历史模拟法和参数方法(正态分布假设)构建某金融机构资产组合的VaR模型,取时,在一年中(252个交易日)两个模型分别具有3个、14个例外数,试检验这两个模型是否高估或低估了风险。写出相应的SAS程序(检验的显著性水平为0.05)。 Data a; P1=probbnml(0.03, 252,3); P2=1-probbnml(0.03, 252, 13); Run; 如果p10.05,则模型了高估了风险;如果p20.05,则模型2低估了风险。 5.SAS数据库编辑中的一些重要命令的使用 ①SAS函数表达式; ②modify;if …then的使用方法; ③set与merge、drop与keep、or与and的使用与区别; 如果两个(或多个)数据库的结构完全一样,即数据库的变量名、变量类型、变量排序一样,则可以通过set命令来对这些数据库进行纵向合并。如果横向需要合并两个数据库(增加新变量),可以使用merge命令。横向合并数据库时,要求两个数据库没有相同的变量名,否则,第二个数据库的同名变量就会在新数据库中失去。 Keep保留变量,Drop删除变量 Or是“或”运算,and是“且”运算,一般用于逻辑判断语句 ④利用sort命令对变量进行排序的方法; ⑤在数据库中生成均匀分布的随机数的SAS命令; Normal(seed)//产生标准正态分布的随机数 Uniform(seed)//产生[0,1]上均匀的随机数 Seed选取奇数 ⑥转换语句if …then…else的使用方法 例:写出的SAS表达式 z=log(sqrt(exp(x)+2*x))+log((x*x)/(3*y)); 例

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档