- 1、本文档共14页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数学建模练习题医保欺诈的主动发现
医保欺诈的主动发现
摘要
随着城镇职工基本医疗保险覆盖面的逐步扩大,参保人员结构更为复杂,医疗保险基金在医疗领域面临欺诈的风险也越来越大。防范医疗欺诈问题,是研究社会医疗保险的重要课题之一,以此医疗保险欺诈为背景提出了问题,本文运用 聚类分析、等方法成功解决了这个问题,并在大量医保名单中找出了医保欺诈行为。
首先根据数据2.1,我们对数据进行了预处理,利用Excel的删除重复项功能对人数进行了识别,然后查找并删除了死亡患者的数据,最后得到58014个不同的ID号,然后利用SPSS分别对身份证号、医保手册号采取标记重复个案的方法,标识出重复数据,其次利用k均值聚类分析法对Userupdate(用户更新次数)进行了分析,确定了主个案和重复个案占的比重,并画出其占比重的饼状图,发现第二类聚类中心数大,以上三种数据特征则表示极可能是医保欺诈行为。
另外根据数据2.2,考虑到可能的欺诈行为,将其分为三类,分别为单张处方单价过高,但其与总价、数量之间存在着相互影响,对此我们先对单价、数量、总价进行相关分析,发现单价与总价呈弱相关;然后用聚类分析对医嘱子类、单价、数量、总价进行分类,案例数少的类即有欺诈嫌疑;其次,对病人ID号标记重复个案,由于重复个案所占比例较大,对重复个案进一步进行了聚类分析;最后,若下医嘱科室与病人科室不一致则可能为欺诈,对此我们绘制了简单线图,不在y=x直线上的即为欺诈记录。
最后,对所建立的模型和求解方法的优缺点给出了客观的评价,并指出了改进的方法。
关键词: 医保欺诈 SPSS k均值聚类分析 标志重复个案
一、问题复述
1.1 问题背景
随着我国医疗保险事业快速发展,在保险赔付过程中,存在着一些借助病案进行医疗保险欺诈的事件,2.1 2.2 2.3 2.4 2.5 2.6),找出可能的欺诈记录。
二、模型假设
1.;.假设数据来源真实有效;
2.假设分析过程中,数据无缺失
三、符号说明
变量 标准方差 初始聚类中心 样本与聚类中心的距离 误差平方和准则函数 欧式距离 新聚类中心 Pearson相关系数 Pearson相关系数检验统计量
四、模型的建立与求解
4、模型建立与求解
4.1.1问题的分析
为了研究找出医疗欺诈行为,我们根据病人ID利用Excel 2007软件的删除重复项功能,对人数进行识别,发现只有58014个不同的ID号,然后利用SPSS软件对身份证号、电话号码、医保卡号的重复项进行标志,并利用聚类分析对其进行分析,最后得出主个案和重复个案所占比例的饼状图,通过饼状图,我们可以清晰的发现医保欺诈为占比重小的那部分
4.1.2聚类分析
聚类分析的基本思想聚类clustering,简单的讲就是将一个给定的数据集分成若干个不同簇的过程聚类算法中的簇指的是数据对象的集合且这种数据对象集合必须满足条件同一簇中的数据对象间具有较大的相似性而不同簇中的数据对象间具有较小的相似性聚类的主要指导思想就是尽可能使同一簇内对象相似度达到最大且不同簇间对象相异度达到最大。
K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。
K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。
4.1.2.1 K-means聚类分析方法
k个初始类聚类中心点的选取对聚类结果具有较大的影响,因为在该算法第一步中是随机的选取任意k个对象作为初始聚类的中心,初始地代表一个簇。该算法在每次迭代中对数据集中剩余的每个对象,根据其与各个簇中心的距离将每个对象重新赋给最近的簇。当考察完所有数据对象后,一次迭代运算完成,新的聚类中心被计算出来。如果在一次迭代前后,J的值没有发生变化,说明算法已经收敛。
K-means聚类分析法的步骤:
对Userupdate(变量)的标识重复个案的结果,进行分类主要采用聚类分析法,而求取类之间的距离有多种方法,其中最常用的是欧几里德距离。
数据标准化
由于所选数据的量纲和数值大小都不一致,数值的变化范围也不同,因此必须首先对所选数据进行标准化处理,如果有个样本,个指标,则每个变量可表示为,均值
您可能关注的文档
最近下载
- 2024年安徽省高考化学真题卷(含答案与解析).pdf VIP
- 司马光的故事市公开课一等奖省赛课微课金奖PPT课件.pptx
- 2014010904013王亮森题目四.docx
- 《国有企业管理人员处分条例》考试题库200题(含答案).docx
- 2023年楚雄师范学院计算机科学与技术专业《操作系统》科目期末试卷A(有答案).docx VIP
- 《接力切换技术原理》课件.pptx VIP
- 电子科技大学820计算机专业基础考研真题试题(含答案)2011—2016年.pdf
- 公司治理:基本原理及中国特色-姜付秀-第10章+法律机制.pptx VIP
- 课件:兽药的合理使用.ppt
- 弗莱雷《被压迫者教育学》.pdf
文档评论(0)