- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Java朴朴素素贝贝叶叶斯斯分分类类器器、、SVM ((5⾏⾏代代码码))实实现现乳乳腺腺癌癌分分类类
Java实实现现乳乳腺腺癌癌诊诊断断 ((分分类类))实实验验总总结结
朴朴素素贝贝叶叶斯斯分分类类器器、、SVM ((5⾏⾏代代码码实实现现))
实验源码:
1.问问题题描描述述
某 究获取了若⼲乳腺癌诊断数据,存放于breast cancer数据.txt 中。每个样本第⼀个数值为ID,随后10列为⼗个属性值,最后⼀列为分类
(2代表良性,4代表恶性) 缺失属性⽤?表⽰。根据实验算法的不同⾃⾏从数据集中选出训练样本和测试样本。
实验要求如下:
1)进⾏数据预处理,填充缺失值,说明预处理的⽅法。
2)分别使⽤⽀持向量机和朴素贝叶斯分类器进⾏分类,并⽐较两种⽅法在测试样本上的准确率。
3)实验报告中说明训练样本和测试样本如何选择。
4)为了使得数据适应所选择的分类器,要进⾏适当的数据预处理。
breast cancer数据.txt部分截图:
2. 实实验验⽬⽬的的
1、、加加强强对对朴朴素素贝贝叶叶斯斯分分类类算算法法和和⽀⽀持持向向量量机机⼯⼯作作过过程程的的理理解解;;
2、、锻锻炼炼分分析析问问题题、、解解决决问问题题并并动动⼿⼿实实践践的的能能⼒⼒。。
3. ⽅⽅法法与与步步骤骤
3.1 ⽅⽅法法概概述述
朴素贝叶斯分类器:样本中给定的⼗⼀个属性值中,第⼀列是样本的序号,这个序号对本次的分类⽽⾔属于⽆关变量,所以在数据初始化时
去除这个属性。朴素贝叶斯分类器对于数据的输⼊格式没有过⼤的要求,因此在去除样本序号属性后可以直接⽤于程序分析。在数据预处理
期间,先将属性值中出现“?” (即缺失值),⽤0来替代,在读⼊全部数据后,计算出每个属性的平均值,⽤于填充缺失的属性值。对于给定
的数据集,采⽤前2/3作为程序训练样本 (⼤概460多个样本),其余1/3样本作为程序的测试集 (⼤概230多个样本)。在训练过程中,将训
练集按照类别的不同 (样本集的最后⼀个属性:2表⽰⾮恶性,4表⽰恶性)划分为两类,再计算出每个属性的平均值和⽅差。对于每个测试
样本的每个属性,可以通过密度函数 (正态分布)来获取它对应的概率值。通过朴素贝叶斯公⽰计算样本属于两个不同类的概率各是多少。
得出预测结果后再和测试样本原先给定的分类结果进⾏⽐较,如果⼀致则正确分类的样本数量加⼀,最后通过正确分类的样本数量和测试样
本的数量⽐值得出程序分类的正确率。
⽀持向量机 (SVM):该⽅法的实现主要通过调⽤LibSVM中给定的函数包实现 (5⾏代码实现SVM分类)。因此需要的的就是将给定的数
据集按照符合调⽤包需要的格式整理即可。其中对于样本数据的缺失值也采⽤属性平均值进⾏填充。符合LibSVM给定数据输⼊的格式为:
: :···:
其中每个字段含义:
abe .C ass: (2 for benign, 4 for ma ignant)
1. Samp e code number: id number
2. C ump Thickness: 1 - 10
3. Uniformity of Ce Size: 1 - 10
4. Uniformity of Ce Shape: 1 - 10
5. Margina Adhesion: 1 - 10
6. Sing e Epithe ia Ce Size: 1 - 10
7. Bare Nuc ei: 1 - 10
8. B and Chromatin: 1 - 10
9. Norma Nuc eo i: 1 - 10
10. Mitoses: 1 - 10
要获取⽬标数据格式,只需将给定的数据集最后⼀列提前到第⼀列,其余⼏列依次后移⼀列即可。由于还需要⼀个样本集的结果列表,因此
在数据预处理期间将每个样本的结果独⽴放⼊⼀个⽂件中,以备后⾯函数调⽤。最后根据需要对调⽤的函数进⾏细微调整即可 (具体调整下
⾯会详细说明)。
3.2 算算法法描描述述
朴素贝叶斯分类器程序流程:
SVM程序流程:
4. 实实验验与与结结果果分分析析
4.1 实实验验环环境境与与参参数数设设置置
使⽤平台和编程语⾔介绍:使⽤的实验平台是Inte iJ IDEA 2019.3.3 x64。使⽤的编程语⾔是java。Java是属于⾯向对象编程
您可能关注的文档
最近下载
- 川教版(2024)三年级上册信息科技 3.8电子小报记见闻 课件.pptx VIP
- 2023年二级建造师《公路实务案例分析》考前重点知识总结.pdf VIP
- 《客舱安全与应急处置》——课件:空中烟雾和火灾的基本处置程序.pptx VIP
- 食品加工企业全套生产管理记录台账(必备42表).pdf
- GB175-2023《通用硅酸盐水泥》-培训.pptx
- 砖砌化粪池标准图集.pptx
- 川教版(2024)三年级上册信息科技 3.7在线交流聊计划 课件.pptx VIP
- 6年级多届YMO数学初选试卷汇编.docx
- 道路救援及理赔考试卷及答案.docx
- 卫生院“优质服务基层行”支撑材料(2.2.1.6全科医疗服务).docx VIP
文档评论(0)