不错的Clementine的例子.doc

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
不错的Clementine的例子

依据1.1.2节中提到的“五C和1S个人信用评级模型”,我们尝试对前20个字段尝试归类,如下表所示: 表3一1样本集合字段归类 Character(特征) 信贷期限、信贷历史纪录、贷款目的、贷款款金额、其他分期付款方式、在本银行现有的信贷纪录数 Capacity(能力) 现有支票账户、分期付款金额占可支配收入的比率、工作、法律规定需要扶养的人数 Capital(资本) 储蓄存款账户 Collateral(抵押担保) 其他债务人/保证人、资产 Condition(环境和条件) 年龄、个人身份和性别 Stability(稳定性) 现任工作时间、在目前住址居住时间、住房、 电话注册、是否外国国籍 可见,这20个字段均为个人信用评价系统中影响个人信用的比较重要的因素。考虑到指标选择的全面性和决策树算法的特性,我们先将这个20个字段全部纳入我们即将建立的模型的指标体系,作为样本纪录的特征属性,等待下一步检验处理。 有关“好”客户和“差”客户的定义[3],通俗的说,“好”客户就是授信机构愿意为其提供消费信用的客户,授信机构预期这些客户能够按时还本付息;“差”客户则是授信机构预期这些客户不能按期还本付息而不愿意为其提供消费信用。商业银行对于好差客户的评判没有统一的标准,通常情况下是根据在一定的观测期内客户的拖欠还贷的时间来区分。在我们所取得的数据中,银行己经根据自己的内部标准和客户的信贷表现情况将客户分为“好客户”和“差客户”两类,记录于最后一个字段中。因此我们直接将其作为样本纪录的类别属性(Class)。 3.2数据预处理 高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤,同时也是数据挖掘中最为耗时和繁琐的过程。因为现实世界中经过初步采集后的数据依然多半是不完整的、有噪声的和不一致的并且可能存在冗余的,所以在获取数据源后,需要对它们进行清洗和转换,使其符合数据挖掘算法的要求,并能够产生最为可靠和准确的结果。 数据的不完整性主要体现在样本某些属性存在空缺值。而数据的不一致性则包括字段类型的不一致、字段长度的不一致、实体处理(例如各部门对相同的字段采用不同的输入方式)的不一致等。由于我们所取得的数据集是己经做过某些相关处理筛选的,经观察统计,不存在空缺值和数据不一致性现象,因此我们做的主要工作是对噪声数据的处理和对冗余数据的处理。 3.2.1噪声数据的处理 噪声是指一个测量变量中的随机错误或偏差。噪声的存在不仅增加了数据挖掘的难度,而且直接影响到建立的模型的准确性。因此对噪声数据的有效处理是建模前的一项重要准备工作。 对噪声数据的检验主要可以通过范围检验、枚举清单、相关检验三种方式来进行。 范围检验主要针对连续性数据。该方法检查一个字段内的数据是否在预期合理的范围之类。例如:若年龄字段出现负值或者大于100的数值,则可认定为不合理的噪声数据。又如若现有信贷纪录数字段出现远大于其他样本平均值的数值,则认定为噪声数据。 枚举清单主要是针对离散性数据。该方法对照数据字段可接受的离散值的清单检验该字段的值。例如:“是否外国国籍”字段的值只能是“是”或者“否”,若出现其他值,则必为噪声数据。 相关检验是将一个字段中的值与另一个字段中的值进行对比。例如:若某个样本的“现任工作时间”字段为“失业”,则其“工作”字段的值必为“失业/普通员工(非本地常驻居民)”。 在找出噪声数据之后,就要对噪声数据进行处理。对于噪声数据的处理主要有以下几种手段: (l)根据合理性和经验常识人工进行判断修改。 (2)先按一定的属性对数据集进行分类,或将具有相同特征的数据聚集起来,然后计算有噪声的记录所属的类中所有该属性值的平均值,以该平均值代替噪声数据。对于离散属性值,直接用包含噪声的纪录所属的类中所有样本中该属性的最常见的值代替噪声数据即可。 (3)利用多元回归技术平滑噪声数据。二元线性回归涉及两个变量,可以找出适合两个变量的“最佳”直线,使得一个变量能够预测另一个。多元线性回归则是二元线性回归的扩展,它涉及两个以上的变量,使得变量之间存在“最佳”的多维面,在这个面上,能够利用其他变量进行另一个变量的预测。使用回归技术,找出适合数据的数学方程式,能够帮助消除噪声。 由于我们所获得的数据集合大部分的字段取值为离散值,因此我们对噪声的处理以前两种方法为主,以第三种方法辅助。 3.2.2冗余数据的处理 冗余数据预处理的另一个重要问题,其目的是除去重复的信息,精简数据集,减少数据挖掘的工作量。主要包括:处理元组冗余,处理属性冗余。 所谓元组,也就是集合中的纪录。一个元组也就是一条记录。元组冗余是指对于同一数据集,存在两条或多条相同的记录。我们利用计算机程序对样本数据集合进行

文档评论(0)

pangzilva + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档