数据挖掘中数据质量分析方法简介.doc

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘中数据质量分析方法简介.doc

数据挖掘中数据质量分析方法简介邮政电信行业部 徐俊军产品研发中心 贺建珲北京华胜天成科技股份有限公司2008年6月电信精确营销系统设计方案V1.0众所周知,在BI项目中数据质量问题十分重要。这里我们将向大家介绍数据挖掘中使用的一些数据质量分析方法。在向大家介绍数据挖掘相关技术的同时,也希望这些简便易行的方法能够对大家在BI项目实施中有所助益。概述数据质量分析是数据挖掘中数据准备过程的重要一环,是数据探索的前提。我们常说,“Garbage in, Garbage out”。数据质量的重要性无论如何强调都是不过分的。没有可信的数据,数据挖掘构建的模型将是空中楼阁。数据质量检查的目的数据挖掘的数据质量分析是以数据的提供信息的正确性和有效性为目标,而在通常的BI项目中主要关注正确性。保证数据的正确性自然是数据质量分析的目的。但数据挖掘中数据质量重点关注的是对建模效果影响大小,对质量的评估也是以对后续挖掘建模影响为原则。如在电信客户流失分析时,我们发现有国际漫游通话的客户比例极小,例如只有不到0.01%的客户有此行为。这时,即便国际漫游通话时长的统计正确性毫无问题,我们也认为该变量缺少有效的信息而有数据质量问题。因为该变量提供的信息只可能对最多0.01%的客户产生影响,对未来预测模型的贡献实在太微乎其微。数据质量检查的方法在BI实施中通常的数据质量检查方法有两种:与源系统对照这是我们在ETL开发和测试中常用的方法。将数据仓库或最终报表中的数据与源系统的数据或报表进行一一比对,是数据质量检查最全面细致的检查方法。业务经验判断这是我们在ETL维护过程中常用的方法。依靠对业务相关知识的经验来判断指标是否在合理的范围。如,业务收入要在一定范围内,可以设置最高、最低的数值来判断是否出现异常;存量用户数通常每月之间上下波动不会超过5%,如果超过则一般可能是数据处理出了问题。依靠经验,我们就可以在ETL流程中加入自动的数据质量检查,当发现异常出现时可以及早通知ETL维护人员进行检查,以预防将错误的数据发布出去。在数据挖掘实施中,由于一般都以数据仓库为数据源,因此通常我们不做数据核对。同时我们通常假定挖掘建模人员对业务和数据本身并不十分熟悉,所以也很难用经验数值的方式进行判断。而数据挖掘对数据的有效性检查,也是需要专门的分析。数据挖掘的数据质量检查方法主要有:值分析统计分析频次与直方图分析相关性分析数据质量分析方法 数据挖掘中数据质量分析的对象主要是宽表。宽表通常是在数据仓库基础上建立的客户信息列表,一般其中每条纪录对应一个客户某个时间的各种信息。其中用于分析建模的字段我们称为变量。对于变量,我们通常按照取值类型分为:数值变量和分类变量。对于数值变量,还可以进一步分为离散型变量、连续型变量。分类变量通常对应数据仓库中的维度,而数值变量通常对应指标。本文中我们主要介绍值分析、统计分析、频次和直方图分析方法。值分析值分析通常是进行数据质量分析的第一步,它可以帮助我们在总体上分析数据的自然分布情况。比如,数据是否只有唯一值, 该变量中有多少空值等。值分析是我们常用方法中最简单的一种。它的分析信息统计简便,信息含义清晰易理解。但它却是最有效的分析方法,因为它能够快速的给出明确的结论。分析方法进行值分析时,我们对宽表中变量进行取值情况的统计。具体统计信息为:总记录数唯一值数:该变量不重复取值的数量空值数/空值占比:取值为null的记录数/占总记录数的比例空字符数/ 空字符占比:取值为空字符串的记录数/占总记录数的比例,对于数值型变量无意义0值数/ 0值占比:取值为0的记录数/占总记录数的比例,对于字符型变量无意义正数个数/正数占比:取值大于0的记录数/占总记录数的比例,对于字符型变量无意义负数个数/负数占比:取值小于0的记录数/占总记录数的比例,对于字符型变量无意义为方便起见,我们对于将宽表中的变量可以批量生成值分析数据:表1:值分析批量结果表xcolxtypexcntxuniquexnullxblankxzeroxposxnegArraLmtIndCHAR(1)92291 3 0 5580 ???ArraLmtTmSMALLINT92291 36 76522 ?15057 7120 BankActNmVARCHAR(80)92291 395 0 91793 ???CuststatINTEGER92291 2 0 ?82281 10010 0 OperQty_51DECIMAL(12,0)92291 1663 0 ?7503 84782 6 OperQty_52DECIMAL(12,0)92291 89 0 ?86026 6263 2 OperQty_53DECIMAL(12,0)92291 31 0 ?89978 2313 0 OperQty_54DECIM

您可能关注的文档

文档评论(0)

mwap + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档