- 1、本文档共12页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘要点整理
金融数据挖掘各章主要知识点
第一第二章:
1.数据挖掘的定义和数据挖掘的基本功能模块;
数据挖掘是从大量的、不完全的、有噪音的、模糊的、随机的实际数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据挖掘技术中比较成熟的主要功能模块
1、特征化、比较与关联规则挖掘
特征化就是总结某类样本的主要特征。比较是分析不同组样本之间的最显著的差异是什么?关联规则挖掘就是发现对象的各个指标之间具有怎样的潜在关联性;
2、分类与预测
分类与预测就是建立某种分类规则,根据这种规则可以判断某些样本分别属于哪一类别。分类是对离散变量的预测,而预测则是对连续变量的预测;
3、聚类分析
聚类分析的目的是将数据集划分为合理的几类,以描述各类的区别。与分类不同,分类是已知类别,建立分类规则,目的是确定新的对象归属于哪个类别。聚类分析中,要划分的类别是未知的,目的也不是确定新的对象的归属。
4、序列发现(时间序列的数据挖掘)
假设历史为重演,发掘具有预测价值的图形(时间序列)、建立交易规则。
异常数据挖掘
发掘海量数据库中的异常数据,建立预警、预报系统。如数据挖掘在反洗钱中的应用。利用数据挖掘建立宏观经济的预警系统等。
2.数据挖掘的基本类型:描述式挖掘与预测式挖掘;
1、描述式数据挖掘:以简洁、概要的方式描述数据,并提供数据中的有用信息。
2、预测性数据挖掘:分析数据,建立一个或一组分类模型或预测模型,利用模型预测新的对象的最有可能的归属。
3.将Excel数据集转化为SAS数据集、数据挖掘数据集的具体方法;
将Excel数据集保存为Excel4.0工作表;
打开SAS软件,按照步骤导入外部数据库,导入的数据集可以临时保存在Work库标记下(退出SAS系统后,导入的数据集将丢失),也可以长期保存在SASUSER库标记下。由于6.12版本的SAS软件并没有汉化,因此数据集中的变量名中不要出现中文。
具体步骤(通过下拉菜单的方式):
File / import,在显示窗口中选择外部数据集类型(现在可选Excel 5 or 7 spreadsheet 或者选择Excel 4 spreadsheet),点击next键;
选择外部数据集所在的路径,打开后,点击next键;
在显示窗口中选择库标记(系统默认的库标记为work),给定要建立的SAS数据集的名称,点击Finish键;
系统将在LOG窗口中给出所建立的SAS数据集的信息。
注意:如果出现错误,SAS系统将会以其他颜色的字符来提示出错信息。
完成输入外部数据集后,可以通过下拉菜单:
Globals / Analyze / interactive data analysis的方式,对建立好的数据集进行检查。
4.一些重要的SAS函数:计算收益率、正态分布的分布值、二项分布的分布值、Logistic分布的概率值、均匀分布的随机抽样数;
计算收益率:r=log(p)-log(lag1(p)); //r,p自己定义的变量名
正态分布的分布值:p=probnorm(x);
二项分布的分布值见例题;
例:利用历史模拟法和参数方法(正态分布假设)构建某金融机构资产组合的VaR模型,取时,在一年中(252个交易日)两个模型分别具有3个、14个例外数,试检验这两个模型是否高估或低估了风险。写出相应的SAS程序(检验的显著性水平为0.05)。
Data a;
P1=probbnml(0.03, 252,3);
P2=1-probbnml(0.03, 252, 13);
Run;
如果p10.05,则模型了高估了风险;如果p20.05,则模型2低估了风险。
5.SAS数据库编辑中的一些重要命令的使用
①SAS函数表达式;
②modify;if …then的使用方法;
③set与merge、drop与keep、or与and的使用与区别;
如果两个(或多个)数据库的结构完全一样,即数据库的变量名、变量类型、变量排序一样,则可以通过set命令来对这些数据库进行纵向合并。如果横向需要合并两个数据库(增加新变量),可以使用merge命令。横向合并数据库时,要求两个数据库没有相同的变量名,否则,第二个数据库的同名变量就会在新数据库中失去。
Keep保留变量,Drop删除变量
Or是“或”运算,and是“且”运算,一般用于逻辑判断语句
④利用sort命令对变量进行排序的方法;
⑤在数据库中生成均匀分布的随机数的SAS命令;
Normal(seed)//产生标准正态分布的随机数
Uniform(seed)//产生[0,1]上均匀的随机数
Seed选取奇数
⑥转换语句if …then…else的使用方法
例:写出的SAS表达式
z=log(sqrt(exp(x)+2*x))+log((x*x)/(3*y));
例
文档评论(0)