必威体育精装版奥鹏大工20春《数据挖掘》大作业题目及要求参考答案.pdfVIP

必威体育精装版奥鹏大工20春《数据挖掘》大作业题目及要求参考答案.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

必威体育精装版奥鹏大工20春《数据挖掘》大作业题目及要求参考答案--第1页

网络教育学院

《数据挖掘》课程大作业

大工20春《数据挖掘》大作业题目及要求

参考答案

第一大题:讲述自己在完成大作业过程中遇到的困难,解决问题的思

路,以及相关感想,或者对这个项目的认识,或者对Python与数据

挖掘的认识等等,300-500字。

KNN算法原理相对比较简单,也比较容易理解由于KNN并没有显式的学习过

程,因此,当数据量比较大时,相比其他模型,其计算资源和时间的消耗将比较

大。由于涉及到距离的计算,当样本的分布密度不均衡时,K值的确定会相对比

较麻烦。在编码过程中,我想到了几个问题或者是需要改进的地方:一是数据的

降维问题,维数太多可能出现维度灾难,那么在维度达到多少的时候需要降维(这

次我没有降维)。二是投票法的问题,当两种标签的训练数据量差别较大时,单

纯使用投票法很可能得到错误的标签,应该考虑加权。第三点跟第二点有一定联

系,就是两种标签的数据量差距很大的时候,怎样避免过拟合的情况发生。

第二大题:完成下面一项大作业题目。

2020春《数据挖掘》课程大作业

题目一:Knn算法原理以及python实现

一.KNN简介

1.KNN算法也称为K邻近算法,是数据挖掘分类技术之一。所谓K最近邻,

就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代

表。

2.KNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中

的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的

必威体育精装版奥鹏大工20春《数据挖掘》大作业题目及要求参考答案--第1页

必威体育精装版奥鹏大工20春《数据挖掘》大作业题目及要求参考答案--第2页

特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定

待分样本所属的类别。KNN算法在类别决策时,只与极少量的相邻样本有关。

由于KNN算法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所

属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他

方法更为适合。

二.KNN算法介绍

KNN的全称是KNearestNeighbors,意思是K个最近的邻居,从这个名字我

们就能看出一些KNN算法的蛛丝马迹了。K个最近邻居,毫无疑问,K的取值肯

定是至关重要的。那么最近的邻居又是怎么回事呢?其实啊,KNN的原理就是当

预测一个新的值x的时候,根据它距离最近的K个点是什么类别来判断x属于哪

个类别。听起来有点绕,还是看看图吧。

KNN原理1

图中绿色的点就是我们要预测的那个点,假设K=3。那么KNN算法就会找到

与它距离最近的三个点(这里用圆圈把它圈起来了),看看哪种类别多一些,比

如这个例子中是蓝色三角形多一些,新来的绿色点就归类到蓝三角了。

KNN原理2

必威体育精装版奥鹏大工20春《数据挖掘》大作业题目及要求参考答案--第2页

必威体育精装版奥鹏大工20春《数据挖掘》大作业题目及要求参考答案--第3页

但是,当K=5的时候,判定就变成不一样了。这次变成红圆多一些,所以新

来的绿点被归类成红圆。从这个例子中,我们就能看得出K的取值是很重要的。

明白了大概原理后,我们就来说一说细节的东西吧,主要有两个,K值的选

取和点距离的计算。

三.代码实现

您可能关注的文档

文档评论(0)

150****7954 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档