r语言侦测欺诈交易.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
R 语言侦测欺诈交易 背景 考虑到在经济和社会领域中经常存在欺诈交易等非法活动,因此欺诈检验是数据挖掘技术的 一个重要应用领域。从数据分析的角度,欺诈行为通常和异常的观测值相关联,因为这些欺 诈行为是偏离常规的。在多个数据分析领域,这些偏离常规的行为经常成为离群值。数据挖 掘的结果有助于公司的事后检查活动,能够提供某种欺诈概率排序作为输出结果,可以使公 司以最佳方式来利用其事后检查资源。 目的 侦测欺诈交易的目的是找到“奇怪的”交易记录报告,它可能指出某些销售员涉嫌欺诈。这 里用的数据是一个较短时期内的销售数据,销售员可按照自己的策略和公司情况来自由设置 销售价格。我们的目的是根据公司过去发现的交易报告中的错误和欺诈企图,帮助公司完成 核实这些销售报告真实性的工作。 1.加载数据: 共 401 146 行数据,每一行包括来自销售员报告的信息。 ID :说明销售员ID 的一个因子变量。 Prod :说明销售产品ID 号的一个因子变量。 Quant:报告该产品销售的数量。 Val :报告销售记录的总价值。 Insp:有 3 个可能值的因子变量——ok 表示公司检查了该交易并认为该交易有效;fraud 表示 发现该交易为欺诈;unkn 表示该交易未经过公司审核。 2.数据集探索: sum(is.na(sales$Quant) is.na(sales$Val)) [1] 888 从数据的统计特征初步可以看出 v431 号雇员录入的数据最多,p1125 号产品卖出最多,可 以看到产品销售的数量和总价值的四分位数据,公司已检查承认有效的数据有 14462,已发 现欺诈的数据有 1270,未经过审查的有 385414,说明大量数据还未经过审核,需要接下来 的数据分析来检查其中的欺诈数据。 数据中有大量缺失值,当重要产品销售数和销售总价值同时缺失时,就无法进行分析,这样 的数据有 888 条,在 40 万组数据中可以忽略不计。 判断数据框中每个变量的属性: str(sales) data.frame: 401146 obs. of 5 variables: $ ID : Factor w/ 6016 levels v1,v2,v3,..: 1 2 3 4 3 5 6 7 8 9 ... $ Prod : Factor w/ 4548 levels p1,p2,p3,..: 1 1 1 1 1 2 2 2 2 2 ... $ Quant: int 182 3072 20393 112 6164 104 350 200 233 118 ... $ Val : num 1665 8780 76990 1100 20260 ... $ Insp : Factor w/ 3 levels ok,unkn,fraud: 2 2 2 2 2 2 2 2 2 2 ... 可以看到 ID ,Prod,Insp 是因子型变量, Quant 整数型,Val 数值型。 table(sales$Insp)/nrow(sales)*100 ok unkn fraud 3.6124200 96.0702847 0.3172953 在只考虑已检查过的销售记录,看到欺诈比例较小。 绘制每个交易人员的交易数量和每个产品的交易数量图形 totS - table(sales$ID) totP - table(sales$Prod) barplot(totS,main=Transactions per salespeople,names.arg=,xlab=Salespeople, ylab=Amount) barplot(totP,main=Transactions per product,names.arg=,xlab=Products, ylab=Amount) 看到所有销售人员的数据相当不同,对于每个产品,波动性较大。 sales$Uprice - sales$Val/sales$Quant summary(sales$Uprice) Min. 1st Qu. Median Mean 3rd Qu. Max. NAs 0.00 8.46 11.89 20.30

文档评论(0)

137****0427 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档