www_quanwen_cn_数据挖掘技术在现代商业银行的应用与研究.doc

www_quanwen_cn_数据挖掘技术在现代商业银行的应用与研究.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘技术在现代商业银行的应用与研究 刘智勇 博士 作为银行信息化建设的一个大跨度的阶段性目标,从上世纪90年代中后期,我国各大商业银行都加快了数据大集中工程的建设步伐。数据集中不仅仅是银行界对技术支持系统的一个改造,更是对传统银行业的整体管理理念、管理经营模式的彻底再造。有了集中的数据,银行不仅可以提高效率,节约成本,更重要的是可以更好地掌握全行的客户、财务、业务和控管等信息,增加了业务的连动性、实时性和可管理性,而且对风险的控制和监管也提升到了一个新的层面,可以很好地在总体层面上监控所面对的风险。 但是,“数据海量,信息缺乏”却是目前商业银行在数据大集中之后普遍所面对的尴尬。目前金融业实施的大多数数据库只能实现数据的录入、查询、统计等较低层次的功能,却无法发现数据中存在的各种有用的信息,譬如对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。 数据挖掘(Data Mining)就是一种从大型数据库或数据仓库中提取隐藏预测性信息的新技术。在拥有了大量原始数据之后,如何有效地使用数据挖掘工具,利用数据仓库技术,将分散的信息变成集中的信息,使孤立的信息变成相互联系的信息,使无价值的数据变成有价值的信息,从而实现企业经营资源的优化配置,减少决策的盲目性,这是大集中之后一个非常重要的主攻方向。尤其在客户信息整合、风险信息预警、决策信息提供等几个方面,数据挖掘更是显得尤为重要。 数据挖掘,或者称为数据库知识发现(Knowledge Discovery in Database (KDD)),是近年来日益受到重视和关注的一个研究领域。为了使得数据挖掘这一新兴领域得以健康快速的发展,国际上已经有专门面向数据挖掘的学术杂志和会议,譬如《Knowledge Discovery in Database》杂志和“IEEE International Conference on Data Mining”会议。虽然数据挖掘是作为一个新兴的领域被提出,但大多用于数据挖掘的方法却是从计算机科学的各个传统分支像神经网络,机器学习和人工智能等发展而来,并且主要在两个方面做出改进。第一就是数据挖掘所要面对的是比以前更为海量的数据,这就要求数据挖掘的方法具有较低的计算复杂性和较高的鲁棒性。第二就是数据挖掘相对于传统的任务需要更多的应用平台的解释,这说明发展数据挖掘的方法需要有很强的任务面向性,譬如同是关联规则挖掘(association rules mining),用于超市客户购买情况分析和银行客户业务分析在后处理方面可能差别很大。 下面我对分类,聚类等两种最主要的数据挖掘任务及其典型的解决方法做一个简单的综述,指出现有主要方法的确定以及提出自己对将来可能发展方向的看法和做法。同时,针对一个不在一般意义上的数据挖掘考虑之列的特殊数据 ─ 时序金融数据挖掘,譬如股票证券数据,讨论著名的套利定价金融理论,分析现有解决方法不足之出以及提出将来其可能改进的方向和方法。 分类(classification): 分类在数据挖掘中扮演一个非常重要的角色。譬如在银行领域,用分类的方法可以把银行现有和将来的客户按照不同的标准分成不同的类。而在每个类里面的客户具有某种意义上的相似性。那么银行可以根据每个类各自的特殊性可以为其制订相应的特殊的业务或者服务,从而对银行的经营策略有很大的益处。一个典型的例子就是可以根据已有的大量资料可以建立分类系统把信用卡用户分成低,中,高风险不同的客户群,进一步还可以根据已建立的分类系统对信用卡的申请者进行分类,从而决定是否对其授予信用卡,或是授予何种类型的信用卡。 分类作为一个主要的数据挖掘的操作在统计,模式识别,决策理论,机器学习和神经网络等领域中已经有过充分的研究。在实际应用中,分类最主要的方法是根据训练样本建立一个决策树,然后根据决策树来分类未知的样本。利用决策树分类法的几个主要优点在于,譬如,1:)它属于非参数模型,不需要对数据的分布做出预先的假设,所以它既可以描述服从于某种分布的数据,也可以处理那些很难用某种特定分布模型去描述的数据;2:)决策树可以分层次来构建,这意味着它可以在实际操作中更好的利用数据的特征和大量降低计算复杂度。 另一方面,大量的研究表明[1],决策树和BP网这种典型的前馈神经网络在实际应用并没有很大的分别。BP网作为一种简单有效的神经网络模型是在80年代初期提出,并在很多领域,譬如文字识别等,得到巨大成功一个模型。但是,BP在很多方面也面对一些问题。譬如,网络的隐神经元的个数如何确定,太少不足以描述数据,太多则会导致过度拟合(over-fitting)问题,从而使得模型的泛化(generalization)能力下降。而决策树模型也受到同样的诟病所困扰

文档评论(0)

ligennv1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档