数据挖掘考题.doc

下载文档

8
0
约5.05千字
约 5页
2023-06-29 发布于湖北
举报
版权申诉
保障服务

数据挖掘考题.doc

1、本文档共5页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

曹达 23220101153239 一、分析题 1. 如何改进kmeans算法中的k的选取问题？聚类数的确定没有个确切方法。K值可以先用系统聚类法，看谱系图然后得出大致分几类。然后试多几个k值，确定个最好的。使用遗传算法是解决K均值中K的选取一个比较可行的方法。 K均值聚类算法把n个向量Xj(j = 1，2，…，n)分成K 个类 (k= 1，2，…，k)，每类的所有样本形成一组，求每组的聚类中心，使得非相似性(或距离)指标的价值函数(或目标函数)达到最小。 K均值聚类算法中重要的一步是初始聚类中心的选择，聚类的性能与初始聚类中心的选择有关系，一般选择待聚类样本集的前K个样本作为初始聚类中心。这样使得聚类的结果与样本的位置有极大的相关性。为了减少这种相关性，使用“伪随机数”的方法，生成一个存有随机数的数组。总以数组的前K个随机数值对应的样本为初始聚类中心。这种方法不但减少了相关性问题，也解决了使用随机数作为初始聚类中心造成的相同K 值聚类效果不稳定的问题。 2. 请描述EM算法的原理和技术。在统计计算中，最大期望（EM，Expectation–Maximization）算法是在概率（probabilistic）模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variabl）。最大期望经常用在机器学习和计算机视觉的数据集聚（Data Clustering）领域。最大期望算法经过两个步骤交替进行计算，第一步是计算期望（E），也就是将隐藏变量象能够观测到的一样包含在内从而计算最大似然的期望值；另外一步是最大化（M），也就是最大化在 E 步上找到的最大似然的期望值从而计算参数的最大似然估计。M 步上找到的参数然后用于另外一个 E 步计算，这个过程不断交替进行。用表示能够观察到的不完整的变量值，用表示无法观察到的变量值，这样和一起组成了完整的数据。可能是实际测量丢失的数据，也可能是能够简化问题的隐藏变量，如果它的值能够知道的话。例如，在 \o 混合模型混合模型（ \o en:mixture model Mixture Model）中，如果“产生”样本的混合元素成分已知的话最大似然公式将变得更加便利（参见下面的例子）。让代表矢量定义的参数的全部数据的 \o 概率分布概率分布（连续情况下）或者 \o 概率集聚函数概率集聚函数（离散情况下），那么从这个函数就可以得到全部数据的 \o 最大似然值最大似然值，另外，在给定的观察到的数据条件下未知数据的 \o 条件分布条件分布可以表示为： 3. 试分析回归和分类的区别。分类(classification )是这样的过程：它找出描述并区分数据类或概念的模型(或函数)，以便能够使用模型预测类标记未知的对象类。分类的目的是学会一个分类函数或分类模型(也常常称作分类器)，该模型能把数据库中的数据项映射到给定类别中的某一个类中。分类和回归都可用于预测，两者的目的都是从历史数据纪录中自动推导出对给定数据的推广描述，从而能对未来数据进行预测。与回归不同的是，分类的输出是离散的类别值，而回归的输出是连续数值。二者常表现为决策树的形式，根据数据值从树根开始有哪些信誉好的足球投注网站，沿着数据满足的分支往上走，走到树叶就能确定类别。 4. 决策树算法有哪些种类和改进？决策树有以下几种经典算法： ID3(Iterative Dichotomizer 3)算法。ID3是一种经典的决策树算法，它从根节点开始，根节点被赋予一个最好的属性．随后对该属性的每个取值都生成相应的分支，在每个分支上又生成新的节点．对于最好的属性的选择标准，ID3采用基于信息熵定义的信息增益来选择内节点的测试属性，熵(Entro—py)刻画了任意样本集的纯度． C4.5算法。C4．5算法是ID3的改进，其中属性的选择依据同ID3．它对于实值变量的处理与下节论述的CART(Classification And Regression Trees)算法一致，采用多重分支．C4．5算法能实现基于规则的剪枝．因为算法生成的每个叶子都和一条规则相关联，这个规则可以从树的根节点直到叶节点的路径上以逻辑合取式的形式读出． CART算法。决策树的分类过程就是把训练集划分为越来越小的子集的过程．理想的结果是决策树的叶子节点的样本都有同类标记．如果是这样，显然决策树的分支应该停止了，因为所有的类别己经被分开了．但是，一般情况下，很难一步就达到目标，所以，如果不止一步才能结束的话，这个分类的过程就是一个递归树的生长过程，CART是仅有的一种通用的树生长算法。改进：对任何数量的训练集，总是能找到相应的多个线性判别函数把它分类，但是这样生成的树的深度可能太大．因为，虽然使用了最好的特征进行分类，但还是可