- 1、本文档共15页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
基于机器学习的上市公司财务舞弊识别模型研究
目录
TOC\o1-2\h\u一、绪论 1
1项目开展背景 1
2项目目标及主要内容 1
3项目创新特色概述 2
二、机器学习理论 2
2.1机器学习模型 2
2.2介绍决策树(GBDT) 4
三、数据集介绍 4
3.1数据集的来源 4
3.2数据集介绍 5
3.3指标选取 6
四、基于GBDT模型的财务舞弊模型的构建 7
五、实验验证 7
(1)测试数据集 7
(2)评价指标 8
(3)测试结果 8
结论 8
PAGE
PAGE1
一、绪论
1项目开展背景
1.1研究背景与意义
财务舞弊问题一直是困扰金融投资业多年的难题。由于我国证券市场相较于欧美发达资本主义国家起步较晚,发展的时间较短,发展速度过快,导致相关监管政策未能跟上,因此上市公司财务舞弊的问题在我国就显得尤为严重。
个别上市公司在面临财务危机时,第一时间会选择粉饰公司业绩以提升投资者信心或以此逃避相关部门的监管。常见的舞弊手段包括虚构交易、资产负债舞弊、对某些交易进行错误核算等。此类行为不仅影响投资者在进行投资时的判断,也挑战了相关监管部门的底线。从长远角度来看,极大地影响我国的证券市场的稳定发展。上市公司财务舞弊行为,尤其是大规模的上市公司财务舞弊极易引起行业内重大金融风险,因此我国证券市场急需解决的问题就是如何发现并杜绝上市公司财务舞弊现象。对投资者来说,财务舞弊识别模型的建立可以帮助其了解上市公司财务情况的真实性,做出正确投资以减少投资所带来的损失。对监管者来说,财务舞弊识别模型的建立可以帮助监管者初步判断哪些上市公司可能发布了虚假的财务信息。也可以通过此模型对上市公司是否有可能进行财务舞弊进行预测,及时做出相应的防控举措以将财务舞弊现象对市场的冲击降到最小。对审计师来说,传统人工的审计工作量极大且比较依赖工作人员的经验,费时费力,并且近年来舞弊手段的不断提高,导致舞弊现象越来越具备复杂性和隐蔽性。因此财务舞弊识别模型的建立可以作为审计师的一种识别上市公司财务舞弊行为的辅助手段,以提高其工作效率和准确率。
1.2项目已有基础
(1)待处理的上市公司财务舞弊的数据集。根据利用Csmar数据集采集大量数据,CSMAR数据库中包含有丰富的国内上市公司的财务情况数据及公司违规情况的数据,对研究中国上市公司财务舞弊十分有帮助。CSMAR迄今共公开从1990至2021年间的公司情况数据,考虑到中国在2005年开始了股权分置改革,股权分置改革对中国的上市公司有着较大的影响,因此选择数据应避免这种影响。而且随着时代的发展,财务舞弊的手段也不断更新,因为需要构建具有前瞻性的机器学习算法,因此选取2018-2023年的某些上市公司的财务数据作为样本。
(2)掌握机器学习模型构建的相关理论和了解模型性能。基于机器学习的财务舞弊识别模型是通过机器学习相关算法搭建,掌握机器学习相关理论是搭建模型的前提。
(3)财务舞弊动因相关理论的综述。舞弊动因理论是研究财务舞弊问题的前提及识别防范舞弊行为的理论依据。在学者的不断研究中,舞弊动因理论现已较为成熟,其中的冰山理论、三角形理论等应用较为广泛。
1.3尚缺少的条件及方法
(1)缺少选取最佳鉴别出上市公司财务舞弊行为的模型的知识。
(2)在构建可用的数据集是需要大量的数据处理工作。
2项目目标及主要内容
2.1项目目标
采用CSMAR数据集数据处理,构建财务舞弊识别数据集;根据财务舞弊设别的特征理论,构建会计财务指标特征体系;最后构建中国上市公司财务舞弊识别的模型,该模型将具备较高的财务舞弊识别的准确率,能有效的检测上市公司财务舞弊行为。
2.2主要内容
(1)构建上市公司财务舞弊识别数据集。
本文所使用的数据集来自CSMAR(国泰安)数据库。CSMAR数据库中包含有丰富的国内上市公司的财务情况数据及公司违规情况的数据,对研究中国上市公司财务舞弊十分有帮助。将数据集分为训练集和测试集。
(2)特征选择。
本研究结合成熟的舞弊动因理论现,其中的冰山理论、三角形理论等,选取数据集中的有效特征。
(3)数据集预处理方法
利用该数据集进行训练需要将字符型特征数值化、归一化处理。
a.字符型特征数值化
我们利用独热编码对此实现字符到二进制数字的转换,通过对三种字符型特征的映。
b.归一化处理
为了提高收敛速度和减少数据的量纲影响,采用MinMaxScaler()函数对数据归一化处理,转化公式如下公式所示。
x=x?min?(
上式max(x)表示最大的特征值,min(x)表示最小的特征值。通过归一化处理,数据集中的所有特征被映射到(0,1)区间。
(4)构建基于
文档评论(0)