- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
C_RTree算法在车险费率厘定中的应用
2010年11月JournalofZhejiangWanliUniversityNovembe9月September2012JournalofZhejiangWanliUniversityTree算法在车险费率厘定中的应用CR毕建欣(浙江万里学院,浙江宁波315100)摘要:提出基于CRTree算法的车险理赔风险模型。现有研究方法对变量多、数据类型复杂和数据量大的数据不能准确进行分析,导致对车险客户的理赔风险出现误判,从而不能准确制定车险费率,为了解决上述问题,提出CRTree算法。CRTree算法通过检测输入字段,通过度量各个划分产生的异质性的减少程度,找到最佳的一个划分,将CRTree算法应用到车险理赔数据中,实验证明:所得理赔风险模型不依赖于经验知识,其模型易于理解,且具有较高的准确率,能够满足评价的要求。关键词:数据挖掘;车险理赔;决策树;保险;费率厘定中图分类号:TP311.13文献标识码:A文章编号:1671-2250(2012)05-0084-05车险在财产保险中占很大的比重,是财产保险的主要险种,然而一直以来车险赔付水平比财产险总体业务的赔付水平偏高。因此,如何保证车险健康发展并且有效降低车险赔付水平是急需解决的一个重要问题。国内外关于车险赔付水平的研究方法中,有定性分析法,即运用心理学[1]、管理学[2]、经济学[3]的相关理论就某个风险因素深入分析考察,也有多方面因素综合分析,以上定性分析法,不能找到相关理赔因素与赔付水平之间的定量关系;定量分析方法多为数据挖掘技术中的关联规则[4-5],以及统计方法中的回归分析[6]、统计分析[7]和经济学中的博弈论分析等。通过对车险理赔风险因素的分析,发现其数据有如下特点:变量多、数据类型复杂(数值型变量包括整数型和非整数型、逻辑型变量、序数变量、尺度变量、名义变量等)和数据量大。而针对变量多、数据类型复杂和数据量大的数据,上述定量分析法不能准确地进行分析,如回归分析不能克服数据量大所带来分析结果的偏差,博弈论和关联分析方法不能克服数据类型复杂所带来研究结果的偏差。而CRTree算法能克服以上不足。针对上述车险赔付水平研究方法的缺点和不足,文章主要从影响车险赔付的金额入手,深入考察关于影响车险赔付的风险因素——从车辆和被保险人来考察,利用CRTree算法通过以上考虑的风险因素建立车险理赔风险模型,找出车险客户理赔风险的特征,为保险企业控制车险理赔风险或者费率厘定提供科学的依据。1CRTree算法原理分类回归树[8](CRTree)是一种典型的二叉决策树,主要用来进行分类研究,可以同时处理连续变量和分类变量,是数据挖掘技术方法之一。如果目标变量是分类变量,则CRTree生成分类决策树,如果目标变量是连续变量,则CRTree生成回归决策树。无论是分类决策树还是回归决策树,CRTree的首要目标是构造一个准确的分类模型用来进行预测,即研究引起分类现象发生的变量及变量之间的作收稿日期:2012-07-08基金项目:浙江省教育厅科研项目(项目编号:Y201121931)。作者简介:毕建欣(1974-),女,吉林九台人,浙江万里学院计算机与信息学院讲师,在读博士,研究方向:数据挖掘、金融保险。·84·第5期毕建欣:CRTree算法在车险费率厘定中的应用用,通过建立决策树和决策规则对类型未知的对象进行类别预测,即通过类型未知的对象的某些相关变量值就可以对其做出类型判定。1.1CRTree算法的分支过程CRTree算法在对一个节点进行分支时,首先要确定一个最佳的分支预测变量以及该预测变量的最佳分支阀值点,然后将性质相同的对象分在同一个节点中,并且同一个父节点的两个子节点间具有显著的差异性。CRTree算法选择指标的方法是使用“杂质函数”,当节点中数据都属于同一个类时,杂质函数值为0,当节点中的对象均匀分布于所有可能的类时,杂质函数值最大。节点的杂质函数定义如下:E(t)=准(p1,p2∧pt-1pt),其中p1+p2+∧+pt=1准(1/J,1/J,∧,1/J)=max准(1,0,∧,0)=准(0,1,∧,0)=准(0,0,∧,1)=0(1)(2)(3)其中pj是节点t(包括根结点)中对象属于j类的概率。类似的,树T的杂质函数是树中包含的各个叶节点杂质函数的加权平均值。可以表示如下:nE(T)=ΣNiE(ti)(4)Nk=1这里n是树T中的叶节点个数,Ni是叶节点i中的对象个数,N是所有叶节点中对象的总数或根节点中对象的数量,E(ti)是叶节点i中的杂质函数值。CRTree算法中最常使用的杂质函数是GINI系数,其公式如下:J准(p1,p2∧pj)=2Σpipj=1-Σpj2(5)i≠jj=1J因为对所有的j,Σpj=1,并且0≤pj≤1,所以GINI系数总为正数,
您可能关注的文档
- 500强经营管理案例精粹 微软的成功经验.doc
- A Brief Guide to Writing A ComparisonContrast Essay一个简短的指南,写一篇comparisoncontrast.doc
- A Neurological Perspective on SLA Study 新世纪神经学视角.ppt
- AADL文献综述.doc
- A-地层实测剖面的选择及测制.ppt
- AA公司仓库内部布局.ppt
- AA式词语详解.doc
- ABS规范 ABS中文版.doc
- ABAQUS公司介绍.ppt
- Academic Honesty, Academic Dishonesty, and Plagiarism :学术诚信的学术欺诈和剽窃,,.ppt
文档评论(0)