2015年数学建模一等奖论文.docx

  1. 1、本文档共70页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE 2 医保欺诈行为的主动发现 长春理工大学 贾而穑 陈俊 叶秀玲 指导老师:周林华 摘 要 随着医疗保障制度的普及,医保欺诈案件呈逐年递增趋势,不仅损害了医保经营的诚信原则,也威胁到了医保基金的安全。为此,如何对医保欺诈行为实现及时自主地发现尤为重要。本文通过: = 1 \* GB3 ①利用可信度较高的欺诈指示因子实现数据初步筛选; = 2 \* GB3 ②基于BP神经网络和蒙特卡洛方法挖掘各类数据之间的隐匿关系,实现数据精细筛选; = 3 \* GB3 ③对医保欺诈数据进行信息挖掘,得出三类不同医保欺诈的特征信息。最终,形成了一套完整的医保欺诈数据挖掘方案。 (1)数据初步筛选:基于病人ID号等信息将所有数据建立联系;根据病人单张处方总价、就医次数等因素,确定4个欺诈指示因子,将总体样本划分为医保欺诈数据(Y类数据)及疑似医保欺诈数据(N类数据)。 (2)数据精细筛选:根据医嘱项、买药总数量、就医次数等9个BP神经网络输入因子,利用MATLAB软件建立BP神经网络;在初步筛选的基础上,随机抽取1组数据作为BP神经网络的训练样本;利用样本进行神经网络训练与检测;进一步利用训练好的神经网络对总体进行识别;重复以上步骤n次(建立BP神经网络除外),实现蒙特卡洛随机试验;若每次试验最终确定的医保欺诈者类的个数与n次随机试验所得结果并集的个数之比都大于90%,则认为该方法可行,最终可以识别出医保欺诈者类。 (3)医保欺诈数据信息挖掘:通过统计所有医保欺诈者ID出现的频数,可以将医保欺诈数据分为重大嫌疑,次要嫌疑及嫌疑较小三类;进一步通过绘制相关信息盒图以及人员分布直方图等,实现三类ID号不同信息的特征识别,并确定了可将ID号进行分类的原因;最后,利用SPSS进行聚类分析,证实了我们的划分方法是可行的。 (4)利用Logistic回归分析对神经网络模型进行改进:对确定的9个输入因子进行二元回归分析,根据回归系数,找出其中的弱因子并将其剔除,在一定程度上可降低对BP神经网络识别的干扰,提高BP神经网络的准确度。 关键词:医保欺诈 数据挖掘 BP神经网络 蒙特卡洛模拟 一.问题重述 我国当前医疗保险欺诈呈现蔓延态势。医疗保险欺诈,是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中,故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。骗保人进行医保欺诈时通常使用的手段,一是拿着别人的医保卡配药,二是在不同的医院和医生处重复配药。下面这些情况都有可能涉嫌医保欺诈:单张处方药费特别高,一张卡在一定时间内反复多次拿药等。我们要根据题目附件中的数据,找出可能的欺诈记录。 问题分析 医疗保险欺诈的识别问题事实上就是索赔分类问题,即区分是欺诈索赔还是合法索赔1。通过分析索赔人信息、索赔信息、治疗情况,例如身份证号、医疗手册号、性别、购药单价、总价、医嘱类及医嘱子类,选择合适的欺诈指示因子,用 由于题给医疗保险欺诈数据量庞大且含有较多的噪声数据,特征变量较多,而BP神经网络具有较强的处理含噪声数据的能力以及处理不严密的知识和定性特征变故的能力2,故我们初步采用BP神经网络这种先进的人工智能技术 首先根据附表2.1和附表2.2中病人ID,身份证及医嘱项等相关信息,初步选择a个欺诈指示因子,将总体数据进行分类,完成对总体样本的初步筛选。对初步筛选的结果赋予相应的期望,为BP神经网络提供必要的输入数据。 随机抽取初步筛选的结果,得到n组BP神经网络的训练样本。通过分析附表所给的相关信息,如:病人ID,身份证号,医嘱项,核算分类等,我们初步确定了b个模糊因子作为BP神经网络的输入因子,建立BP神经网络并对随机抽取的n组样本数据进行训练,检测。最后我们用所训练好的的n组BP神经网络对总体进行识别,输出结果R1,R2…Rn。并通过设定频数阈值,将输出的结果分为重大嫌疑, 为了验证我们对总体识别结果的划分是可行的,我们采用SPSS进行了Ward聚类,并将聚类结果与我们划分的结果相比较,以证实我们的分类方式是合理的。 由于我们不知道b个模糊因子对医保欺诈识别的影响,故我们考虑到用Logistics回归分析对BP神经网络模型进行改进。利用Logistic回归分析对神经网输入因子进行筛选,输出每一个模糊因子对应的权重,剔除弱因子,提高BP神经网络识别的准确率。 模型假设 1.ID号为692316的年龄数据不详,ID号为669432的年龄为140(严重与事实不符),故剔除不予以考虑; 2.ID号为687972,31551,580015的购买频率为0,故不计入欺诈索赔的范围内; 3.若BP神经网络检测准确率大于90%,则可认为所建立的BP神经网络合理; 4.假设数据预处理的a个欺诈指示因子相互之间没有联系; 5.所

您可能关注的文档

文档评论(0)

55863368 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档