- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1对于软木塞数据集上的前两类,利用特征ART和PRT描述a)首先
1对于软木塞数据集上的前两类,利用特征A RT和PRT描述:
a)首先单独使用特征ART,基于欧氏距离尺度和马氏距离尺度分别设计分类器,然后同时使用特征ART和PRT重新设计前面两个分类器。
b)用总体协方差矩阵作为两类的真实协方差矩阵,计算贝叶斯错误率。
c)是否基于马氏距离尺度的分类器更加逼近最优的贝叶斯分类器。
d)利用PR Size计算训练集上的分类错误率,以及它与贝叶斯错误率的平均偏差,同
时给出错误率估计水平为95%的置信区间。
2对护软木塞数据集上的前两类,利用特征ART和PRT计算出基于欧氏距离尺度的线性判别,利用的公式是4-3c。
3对于3类软木塞数据集,重复前面的练习,利用的特征是N, PRM和ARTG。计算出总体协方差矩阵,同时看看它的值发生微小变化时对于分类器性能的影响情况。
4对于CTG数据集,将它们分成3类—N(正常)、S(可疑)、P(病态):
a)基于马氏跟离尺度时,哪一个特征在这个问题上具有最大的可分性。
b)利用样本划分法设计分类器,并通过计算测试集上的错误率估计它的性能。
5对于岩石数据集以及其中的两个类别:{花岗岩}和{石灰石,大理石},重复前面的练习。
6对于软木塞数据集,沿着前面4.1.4节中给出的Fisher方向上的二维数据,给出它的线性判别。指出利用线性判别可以得到同样的结果。
7对于水果图像数据集,为了得到感兴趣的颜色和图形进行图像处理(利用普通的图像处理工具,例如Micrografx Picture Pubiisher就可以实现这个目的)。设计一个贝叶斯分类器对3类水果分类,给出过程和结果。
8对于医生来说,非常希望找到一种规则,在胸部组织数据集上利用同样的诊断和测量方法可以将癌症从所有其他的情况中区分开来。
a)利用胸部组织数据集,仅仅利用一个特征区分出癌症和其他所有的症状(放松分布是正态型以及相同的协方差矩阵的要求)。从各类训练集大小估计出各类的先验概率,利用前向与后向有哪些信誉好的足球投注网站法。
b)分别计算训练集和测试集上该分类器的错误率估计,并给出水平为95%的置信区间。
c)利用PR Size程序,计算出上面的错误率相对于真实贝叶斯估计错误率的偏差。此
时假定满足正态分布以及相同协方差矩阵的要求。
d)假定遗漏一个癌症病例的损失是将一个非癌症病例判别为癌症的损失的3倍。如何修改决策规则使得它能反应这种损失的比例情况?新的规则得到的分类器性能如何?
9对于Norm2c2d数据集,研究一下利用总体协方差矩阵对于训练集上错误率估计的影响。为了达到这个目的,进行如下的计算:
a)改变一个协方差矩阵的非对角线元素的值,幅度不要过大(例如10%)。
b)利用各自的协方差矩阵得到一个二次型的分类器,计算训练集上的错误率。
c)利用总体协方差矩阵设计一个线性分类器,计算训练集上的错误率。
d)比较b)和c)中得到的结果。
10对于练习题4.8中的癌症分类器,确定一个拒绝阈值,使得:a)没有癌症病例会遗漏;b)只有5%的癌症病例结果是误判的。同时确定这些情况下的决策规则。
11对于练习题4.4,仅仅考虑N和P两类时重复分类过程。然后确定什么样的拒绝阈值最好地匹配了S(可疑)类。
12利用Parzen. xls文件重复图4-28所示的实验,要求在其他形式的分布下进行——正态分布和对数分布。
13对于软木塞数据集上的前两类,利用特征N和PRTl0应用Parzen窗函数方法利用神经网络方法进行样本的识别。同时利用权重值得到概率密度估计(限制训练集上每个类的样本数为10,使用Microsoft Excel软件)。
14对于胸部组织数据集,利用k-NN方法设计分类器将癌症从其他情况中区分开来。分别用样本划分法和剪辑法(使用KNN程序)。比较得到的结果。
15.巧将岩石数据集分成两大类:{花岗岩,闪长岩,片岩}和{石灰石,大理石,角砾岩},利用k-NN方法设计分类器:
a)选择所使用的近邻数,k。
b)对于前面得到的k,运用k-NN法得到的分类器和贝叶斯分类器相比,期望的渐进偏差为多大?
c)分别利用样本划分法和剪辑法(应用KNN程序)进行分类,比较得到的结果。
16解释为什么所有的ROC曲线都是起始于点(0,0)而终止于点(1,1),通过分析这些点对应的意义来说明。
17对于胸部组织数据集,利用RDC曲线方法分别确定各个特征对于区分癌症和其他任何情况的能力。利用ROC曲线下包围的面积比较这些结果。
18对于图4-34所示的婴儿心率的FHR Apgar(阿普枷新生儿评分)数据集,利用所有的特征重复进行 ROC曲线方法的实验。
19在信号噪声(Signal N
文档评论(0)