网站大量收购闲置独家精品文档,联系QQ:2885784924

数据挖掘之红酒鉴别 (2).docVIP

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于数据挖掘的葡萄酒质量识别 我们知道,传统的葡萄酒鉴别靠感觉器官的品尝来判断其质量的好坏,这就必须要求品尝者是训练有素的品酒专家。但感官品尝结果容易受各种因素的影响。随着科学技术的发展,葡萄酒质量品鉴成了一项可以替代性的工作,不在局限于酿酒工作者的工作才能完成。因此,将数据挖掘方法用于葡萄酒评级早已被各国所采用。下面主要基于数据挖掘的分类和回归方法对葡萄酒质量的鉴别做一个简单的分析与判断。 数据挖掘理论方法论述 1.1主成分回归 在数据处理中,经常会遇到高维数据组,由于数据维数高,变量多,而且变量间往往存在相关关系,因此很难抓住他们的相关关系信息。在实际问题中,研究多变量问题是经常遇到的,再加上变量指标之间有一定的相关性,这势必增加了问题的复杂性,主成分分析就是设法将原来指标重新组合成一组新的互相无关的较少的综合指标来代替原来的指标,同时根据实际需要从中可取几个较少的综合指标尽可能多的反映原来指标的信息。这种将多个变量化为少数互相无关的综合指标的统计方法称为主成分分析。 主成分分析就是设法将原来众多具有一定相关性的变量重新组合成一组新的相互无关的综合指标来代替,通常数学上的处理就是将原来个变量作线性组合,作为新的综合指标,但是这种线性组合,需要加以限制。假设第一个综合指标记为,自然希望尽可能多的反映原来指标的信息,这里最经典的方法是用的方差来表达,即越大,表示包含的信息越。因此所有线性组合中所选取的应该是方差最大的,故将称为第一主成分,如果不足以代表原来个指标的信息,在满足的条件下,再考虑选取作为第二个主成分,同理可以构造第三,四,.....,第个主成分。 要求: (1) (2) 求得的主成分为协房阵的特征向量为系数的线性组合。得到主成分,提取所需要的前几个主要成分后,回归的过程与线性回归是一致的。只是自变量变成了选取的主成分,因变量不变。 1.2 分类回归树 1.2.1分类回归树的构建 分类回归树的构建是通过学习给定的训练样本,寻找最佳的分支规则。分类回归树的分支规则是根据不纯度作为评估度量来实现的,以寻找最佳的分支规则。最常用的不纯度函数为基尼指数,其定义为 其中是指中第类的频率,也就是说当基尼指数越小时,意味着该节点所包含的样本集越集中,该节点越纯。 树的构建大致可以这样表述为:所有的样本都属于树的根节点,寻找第一个节点的分支规则时,从第一个自变量开始,记录样本数据该变量的每个取值作为分支阈值时不纯度的下降值,直到所有变量的每个取值作为分支阈值的不纯度下降值记录完毕,选择不纯度下降值最大的自变量和分叉阈值作为树根节点的分支变量和分支阈值。如此往复生成一颗最大的树。由此过程可见,分类回归树属于贪心算法。 在构建树的过程中,满足以下条件之一,则不再对叶节点进行分支操作: 叶节点中的样本数小于给定的值,一般默认; 分支后的叶节点中的样本属于同一类; 无属性向量用于分支选择。 经过此过程,最终得到一颗最大的树 1.2.2分类回归树的修剪 为了解决所建立的最大树过分拟合的问题,需要对生成的树进行修剪,去掉那些对未知检验样本的分类精度没有帮助的部分树,使得模型更简单、更容易理解。 常用的剪枝有两种:一种是先剪枝法,一种是后剪枝法。它们都采用统计度量,剪去最不可靠的分支,提高分类回归树独立于测试数据的测试能力。 最小成本复杂度的后剪枝法较为常用,其统计度量为 其中表示复杂度参数,用于表示每个终止点复杂度的代价,当为0时,对应的最大树。为的估计错分率,为该树的估计错分类与对复杂度惩罚值之和的成本复合值。当一定时,越大,其可取性也就越小。 1.2.3分类回归树的评估 经过树的修剪,得到了一系列的子树,那么如果选择最优大小的树作为最终构建分类回归树,就需要对分类回归树进行评估,最常用的评估方法有测试样本评估和交互检验评估。文中采用的是交互检验评估。 折交互检验是将样本集平均分为个子集,每次用其中的个子集进行建模,剩下的子集用来预测,循环次,计算平均的错分率。对所生成的一系列子树分别进行折交互检验,得到个平均错分率,那么最小平均错分率对应的子树就是最优的构建树,即 2.数据处理与基本分析 2.1数据说明与预处理 葡萄酒数据来源于/ml/datasets/Wine+Quality,包含红酒和白酒两种。红酒1599个样本记录,11个表示成分和含量的自变量以及一个关于葡萄酒质量好坏的因变量。白酒则有4898个样本记录,也是11个表示成分和含量的自变量以及一个关于葡萄酒质量好坏的因变量。为简化问题,我主要讨论了红酒的质量识别,白酒的质量识别可以对照参考。本文数据分析所使用的工具主要有SPSS和R语言。首先将葡萄酒质量等级

文档评论(0)

jwjp043 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档