金融数据挖掘课件.pptVIP

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

金融市场的数据挖掘

教材:

数据采掘入门与应用

张尧庭编中国统计出版社

参考教材:

1、数据挖掘——概念与技术

jiaweiHan著,范明译机械工业出版社

2、多元统计数据分析——理论、方法、实例

任若恩著国防工业出版社

配套应用软件:

1、Intelligentminerfordata

2、SAS

;第一章:概论

一、何为数据挖掘(datamining)

现代信息社会的特征:信息(数据)泛滥、知识缺乏,如何从海量数据(广义的概念)中挖掘出决策有用信息?

数据挖掘是结合现代数学、统计学,机器学习、人工智能、数据库管理、计算机图形学、软件工程等各领域的技术和知识,1990年代在西方国家出现的一种高新技术——从海量数据中挖掘出决策有用信息的技术。

1990年代末,在对100名美国著名科学家的问卷调查中,数据挖掘被列为21世纪对人类发展影响最大、最有前途的10大技术的第三位。;

我国对数据挖掘技术的重视(开发与应用)

1、863、963项目;

2、国家及省重点科学领域;

3、国家统计局在全国组织数据挖掘培训(2000);

4、企业特别是银行对数据挖掘技术的重视;

5、人民大学数据挖掘研究与应用中心。

海量数据——沙漠,隐含的知识——金子,

数据挖掘——从沙漠中挖掘金子的技术。;

二、不同学科对数据挖掘技术的研究与开发

1、理论研究——各种数据挖掘技术的理论基础、理论依据研究,从数学、统计学、人工智能、计算机图形学等不同领域;

2、挖掘技术研究,从统计学、人工智能、机器学习、计算机图形学、软件工程等领域;

3、数据管理策略研究,从数据库管理技术等领域;

4、数据挖掘技术的应用研究,其中数据挖掘技术在金融领域的应用是一个重要方面。;三、几种相对比较成熟的数据挖掘技术

数据挖掘是一门新兴的、正在不断发展中的技术,近年来,几类十分重要、且相对比较成熟的数据挖掘技术是:

1、分类与预测

2、特征化、比较与关联规则挖掘

3、聚类分析

4、序列发现

本课程主要内容:几类数据挖掘技术的基本原理、数据挖掘方法、及这些挖掘技术在金融领域的应用。;

2、预测

预测是指对连续性变量的取值进行预测,如:

*某个借款人的违约概率是多少

*银行资产组合明天在99%置信度下的最大损失(VaR)有多大

*如果某开放式基金因面临巨额赎回申请而不得不大量抛售某种证券,这种证券的价格会下跌多少

分类——对离散型变量进行预测

预测——对连续型变量进行预测;

二、分类案例教学——

上市公司财务困境预测模型构建

1、要求:

将因财务状况异常而被特别处理的ST公司界定为财务困境公司、非ST公司界定为财务正常公司,利用上市公司的财务报表数据,建立上市公司财务困境预测模型(提前一年预测,即用第t-2年的数据预测企业在第t年是否会陷入财务困境)。

分类变量y的取值

y=0如果公司为财务困境公司

y=1如果公司为财务正常公司

;5、研究所需数据

①、预测变量选取——实践经验、其他文献使用的预测变量、采用技术手段(统计技术、数据挖掘技术)选取预测变量、在一定理论指导下构造新的预测变量;

②、样本数据的结构形式

③、采集样本数据时应注意的问题

*尽量采用跨年度数据

*需要删除的数据

*尽量不采用配对抽样

④、随机构造的训练样本组与检验样本组(过度拟合现象);

文档评论(0)

book_zhj + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8002066073000063

1亿VIP精品文档

相关文档