- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅谈应用Benford法则和Apriori算法对海量数据的审计的论文.doc
浅谈应用Benford法则和Apriori算法对海量数据的审计的论文
[摘 要] 随着信息时代的飞速发展,被审计单位财务和业务数据量爆炸式增长,审计技术必须不断发展和创新以适应信息时代审计的新要求。本文在这一背景下,对审计技术的创新作了探索性的研究,主要通过benford法则和apriori算法的关联数据挖掘的技术手段在审计中的应用,探讨了如何在被审计单位海量数据中进行挖掘分析,从而发现有业务意义的强规则,通过这些强规则解释数位发生偏离的原因,从而快速发现审计疑点。
[关键词] benford法则; apriori算法;关联规则; 审计数据分析
1 技术简介
1.1 benford法则简介
1.1.1 benford法则[1]的定义
1938年,通用电气公司物理学家frank benford收集了大量的数据集合后发现,人们处理较低数字开头的数值的频率较大。
1.1.2 benford法则的benford分布
benford分布属于第二代(second generation)分布,描述了数据总体的客观分布规律,数据总体由其他分布中的抽样数据组成的分布。
2004年utah state university的cindy durtschi的研究[2]表明:
(1)数字出现概率的期望值的标准偏差为:
z=(|p0-pe|-1/2n)/si
(2)分布概率的z统计量为:
p0:实际的数据出现比率;pe:根据benford法则的预期出现比率;si:某个数字的标准偏差;n:目标数据集的记录数。.
1.1.3benford分布中的数字频率上下限
(1)数字频率的上限:
(2)数字频率的下限:
1.1.4benford法则的应用范围
(1)可以针对海量数据进行挖掘分析,数据规模越大,分析结果越精确。
(2)会计舞弊调查[3-5]、审计[6-8]、税收监管[9]、金融分析和反洗钱[10]。
1.2apriori算法简介
apriori算法[11]是一种对布尔关联规则频繁项集进行挖掘的算法。apriori算法使用一种逐层有哪些信誉好的足球投注网站的迭代方法,即使用k-项集用于探索(k+1)-项集,其中k=1,2,3,…,n,n∈n,直到最终无法找到频繁(k+1)-项集,从而确定最终的频繁k-项集。
2应用benford法则和apriori算法对海量数据的审计分析
benford法则和apriori算法的联合数据挖掘在审计中的应用主要围绕为以下两个核心步骤展开:
2.1应用benford法则发现审计疑点
(1)判断数据的来源是否符合benford法则的应用范围。
(2)对总体数据的一、二位有效数字进行benford法则的符合性测试,初步发现对数据进行深入钻取的线索。
(3)对标准分布频率和实际分布频率进行比较,分析频率偏差,确定合理的钻取重点。
(4)根据分析结果和实际需要,进行更多位数字的进一步数据钻取和分析,直至发现目标数据。
钻取过程如图1所示。
2.2 应用apriori算法分析审计疑点
(1)采集通过benford法则分析后输出的疑点数据集。
(2)整理疑点数据集以建立事务集,即apriori算法要求输入的数据集合。
(3)扫描事务集产生候选数据集合,并依据最小支持度筛选出频繁项集。
(4)频繁项集进行自关联,迭代第三、第四步,确定最终的频繁项集。
(5)依据最小置信度从频繁项集产生强规则。
(6)对强规则进行人工审计业务分析。
3应用案例
3.1应用benford法则对审计疑点的发现过程
3.1.1 确定审计数据和目标字段
分析某企业的凭证数据,从其记账凭证表accvouch摘取字段结构如表1所示:
3.1.2 数据导入
将相应的目标数据表导入审计人员使用的数据库。 123下一页
3.1.3总体频率计算
3.1.3.1 数位的选取
以凭证t2000001和t2000002为例解释数位选取方式,如我们选取凭证编号t2000001的金额栏1 000元的第一、二位数值为”10”,作为该笔记录的第一、二位数;我们选取凭证编号为t2000002的借方金额栏3 029元的第一、二位数值为”30”,作为该笔记录的第一、二位数,如表2所示:
3.1.3.2 数位分析
对记账凭证表accvouch中的借方金额字段前两位进行分析,第一、二数值为10的凭证纪录有540笔,全部记录有10 149笔,因此第一、二位数为”10”频率为5.3%
文档评论(0)