- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
R 语言侦测欺诈交易
背景
考虑到在经济和社会领域中经常存在欺诈交易等非法活动,因此欺诈检验是数据挖掘技术的
一个重要应用领域。从数据分析的角度,欺诈行为通常和异常的观测值相关联,因为这些欺
诈行为是偏离常规的。在多个数据分析领域,这些偏离常规的行为经常成为离群值。数据挖
掘的结果有助于公司的事后检查活动,能够提供某种欺诈概率排序作为输出结果,可以使公
司以最佳方式来利用其事后检查资源。
目的
侦测欺诈交易的目的是找到“奇怪的”交易记录报告,它可能指出某些销售员涉嫌欺诈。这
里用的数据是一个较短时期内的销售数据,销售员可按照自己的策略和公司情况来自由设置
销售价格。我们的目的是根据公司过去发现的交易报告中的错误和欺诈企图,帮助公司完成
核实这些销售报告真实性的工作。
1.加载数据:
共 401 146 行数据,每一行包括来自销售员报告的信息。
ID :说明销售员ID 的一个因子变量。
Prod :说明销售产品ID 号的一个因子变量。
Quant:报告该产品销售的数量。
Val :报告销售记录的总价值。
Insp:有 3 个可能值的因子变量——ok 表示公司检查了该交易并认为该交易有效;fraud 表示
发现该交易为欺诈;unkn 表示该交易未经过公司审核。
2.数据集探索:
sum(is.na(sales$Quant) is.na(sales$Val))
[1] 888
从数据的统计特征初步可以看出 v431 号雇员录入的数据最多,p1125 号产品卖出最多,可
以看到产品销售的数量和总价值的四分位数据,公司已检查承认有效的数据有 14462,已发
现欺诈的数据有 1270,未经过审查的有 385414,说明大量数据还未经过审核,需要接下来
的数据分析来检查其中的欺诈数据。
数据中有大量缺失值,当重要产品销售数和销售总价值同时缺失时,就无法进行分析,这样
的数据有 888 条,在 40 万组数据中可以忽略不计。
判断数据框中每个变量的属性:
str(sales)
data.frame: 401146 obs. of 5 variables:
$ ID : Factor w/ 6016 levels v1,v2,v3,..: 1 2 3 4 3 5 6 7 8 9 ...
$ Prod : Factor w/ 4548 levels p1,p2,p3,..: 1 1 1 1 1 2 2 2 2 2 ...
$ Quant: int 182 3072 20393 112 6164 104 350 200 233 118 ...
$ Val : num 1665 8780 76990 1100 20260 ...
$ Insp : Factor w/ 3 levels ok,unkn,fraud: 2 2 2 2 2 2 2 2 2 2 ...
可以看到 ID ,Prod,Insp 是因子型变量, Quant 整数型,Val 数值型。
table(sales$Insp)/nrow(sales)*100
ok unkn fraud
3.6124200 96.0702847 0.3172953
在只考虑已检查过的销售记录,看到欺诈比例较小。
绘制每个交易人员的交易数量和每个产品的交易数量图形
totS - table(sales$ID)
totP - table(sales$Prod)
barplot(totS,main=Transactions per salespeople,names.arg=,xlab=Salespeople,
ylab=Amount)
barplot(totP,main=Transactions per product,names.arg=,xlab=Products,
ylab=Amount)
看到所有销售人员的数据相当不同,对于每个产品,波动性较大。
sales$Uprice - sales$Val/sales$Quant
summary(sales$Uprice)
Min. 1st Qu. Median Mean 3rd Qu. Max. NAs
0.00 8.46 11.89 20.30
您可能关注的文档
- sap高级顾问从业心得.pdf
- sa500 称重控制器使用手册(皮带秤060814).pdf
- s100蛋白家族在肿瘤中的研究进展.pdf
- sap会计凭证介绍与详解.pdf
- sap生产订单结算原理.pdf
- sata30和sata1 2区别及对比.pdf
- sap系统基本操作及技巧.pdf
- sbr反应池的设计计算.pdf
- sas接口互连完全指南.pdf
- sbs 改性沥青卷材防水的施工工艺.pdf
- 《GB/T 32151.42-2024温室气体排放核算与报告要求 第42部分:铜冶炼企业》.pdf
- GB/T 32151.42-2024温室气体排放核算与报告要求 第42部分:铜冶炼企业.pdf
- GB/T 38048.6-2024表面清洁器具 第6部分:家用和类似用途湿式硬地面清洁器具 性能测试方法.pdf
- 中国国家标准 GB/T 38048.6-2024表面清洁器具 第6部分:家用和类似用途湿式硬地面清洁器具 性能测试方法.pdf
- 《GB/T 38048.6-2024表面清洁器具 第6部分:家用和类似用途湿式硬地面清洁器具 性能测试方法》.pdf
- 《GB/T 18238.2-2024网络安全技术 杂凑函数 第2部分:采用分组密码的杂凑函数》.pdf
- GB/T 18238.2-2024网络安全技术 杂凑函数 第2部分:采用分组密码的杂凑函数.pdf
- 《GB/T 17215.686-2024电测量数据交换 DLMS/COSEM组件 第86部分:社区网络高速PLCISO/IEC 12139-1配置》.pdf
- GB/T 13542.4-2024电气绝缘用薄膜 第4部分:聚酯薄膜.pdf
- 《GB/T 13542.4-2024电气绝缘用薄膜 第4部分:聚酯薄膜》.pdf
文档评论(0)