- 1、本文档共18页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
用身高和体重数据进行性别分类的实验报告
用身高和体重数据进行性别分类的实验报告(二)
基本要求
1、试验非参数估计,体会与参数估计在适用情况、估计结果方面的异同。
2、试验直接设计线性分类器的方法,与基于概率密度估计的贝叶斯分类器进行比较。
3、体会留一法估计错误率的方法和结果。
二、具体做法
1、在第一次实验中,挑选一次用身高作为特征,并且先验概率分别为男生0.5,女生0.5的情况。改用Parzen窗法或者kn近邻法估计概率密度函数,得出贝叶斯分类器,对测试样本进行测试,比较与参数估计基础上得到的分类器和分类性能的差别。
2、同时采用身高和体重数据作为特征,用Fisher线性判别方法求分类器,将该分类器应用到训练和测试样本,考察训练和测试错误情况。将训练样本和求得的决策边界画到图上,同时把以往用Bayes方法求得的分类器也画到图上,比较结果的异同。
3、选择上述或以前实验的任意一种方法,用留一法在训练集上估计错误率,与在测试集上得到的错误率进行比较。
三、原理简述及程序框图
1、挑选身高(身高与体重)为特征,选择先验概率为男生0.5女生0.5的一组用Parzen窗法来求概率密度函数,再用贝叶斯分类器进行分类。
以身高为例
本次实验我们组选用的是正态函数窗,即,窗宽为(h是调节的参量,N是样本个数) ,(d表示维度)。因为区域是一维的,所以体积为。Parzen公式为。
故女生的条件概率密度为
男生的条件概率密度为
根据贝叶斯决策规则知
如果,否则,。
流程图如下:
2、要求是同时采用身高和体重数据作为特征,用Fisher线性判别方法求分类器,将该分类器应用到训练和测试样本,考察训练和测试错误情况。将训练样本和求得的决策边界画到图上,同时把以往用Bayes方法求得的分类器也画到图上,比较结果的异同。
说明,取男生和女生的先验概率分别为0.5,0.5。在设计贝叶斯分类器时,首先求各类样本均值向量,及,然后求各个样本的来内离散度矩阵,及,再求出样本的总类内离散度,及,根据公式求出把二维X空间投影到一维Y空间的最好的投影方向。再求出一维Y空间中各类样本均值,其中,本次实验的分界阈值我们用如下方法得到:,最后,将测试样本中的值代入,求出y,并将其与y0来进行比较来分类。
根据课本对Fisher线性判别法的介绍,得到的算法流程图如下:
3、选择上述或以前实验的任意一种方法,用留一法在训练集上估计错误率,与在测试集上得到的错误率进行比较。
这里我们选择Fisher线性判别法,用留一法来估计它在训练集上的错误率,并将结果与Fisher线性判别法对测试集进行判别时得到的错误率进行比较。
具体流程图如下:
四、实验结果及分析总结
1、得到结果如下表
以身高作为特征
h=4
估计方法 女生先验概率 男生先验概率 男生错误个数 女生错误个数 总错误 男生错误率 女生错误率 总错误率
Parzen窗法 0.25 0.75 22 8 30 16% 8.8% 10% 0.5 0.5 34 4 38 13.6% 8% 12.67% 0.75 0.25 80 2 82 32% 4% 27.33%
最大似然Bayes 0.25 0.75 20 6.667% 0.5 0.5 27 9% 0.75 0.25 60 20% 以身高与体重作为特征
h=7
估计方法 女生先验概率 男生先验概率 男生错误个数 女生错误个数 总错误 男生错误率 女生错误率 总错误率
Parzen窗法 0.25 0.75 7 22 29 14% 8.8% 9.67% 0.5 0.5 38 2 40 15.2% 4% 13.33% 0.75 0.25 2 46 48 18.4% 4% 16%
最大似然Bayes 0.25 0.75 8 6 14 3.2% 12% 4.67% 0.5 0.5 29 3 32 11.6% 6% 10.67% 0.75 0.2 59 1 60 23.6% 2% 20%
分析:通过比较可知,在用最大似然估计这种参数估计方法和Parzen这种非参数估计方法来进行分类时,最大似然估计判别的错误率低。
2、得到结果如下
(1)、用Fisher线性判别方法求分类器,将分类器应用到训练和测试样本上,比较其错误率
判别
对象
男生错误个数
女生错误个数
总错误
男生错误率
女生错误率
总错误率
测试样本
27
2
29
10.8%
4%
9.67%
训练样本
8
4
12
16%
8%
12% 分析:用训练样本得到的分类器测试测试样本时错误率低,测试结果较好,但测试训练样本时,
您可能关注的文档
最近下载
- 北京商圈分析报告.pdf
- 2023年11月深圳市福田区公开选用机关事业单位辅助人员和社区专职工作者笔试历年(2016-2023年)真题荟萃带答案解析.pdf VIP
- 2024秋(人教版)英语七年级上册:单词表 汇总表.pdf
- 2022年通信工程师中级传输与接入(无线)真题及答案.pdf
- 第二章一元二次函数、方程和不等式教学设计(全章).docx
- 国家开放大学《电子商务概论》1-9章 形考任务阶段测验1、2答案(无错版本)82295 .pdf VIP
- 江苏省普通高校“专转本”选拔考试管理专业大类专业综合操作技能考试大纲.docx
- 银行开展减费让利宣传活动的总结范文(30篇).docx VIP
- 美育——美即生活-期末复习-题库-试卷.docx
- 预定动作时间标准法(PTS).doc VIP
文档评论(0)