基于knn的电影网站用户性别预测陆小马功钟浩.ppt

下载文档

186
0
约3.05千字
约 33页
2021-09-15 发布于山东
举报
版权申诉
保障服务

基于knn的电影网站用户性别预测陆小马功钟浩.ppt

1、本文档共33页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

KNN算法实战任务 KnnReducer 第一列是对测试数据的预测类别，第三列是测试数据的正确类别 KNN算法实战任务预测结果评价分类结果准确性评价分类结果准确性下图是K值分别为3,4,5,6,7对应的准确率，从图中可以看出K值为3是准确率是最高的 K值的选取 K值选取 K值选取初始化最大准确率maxAccuracy为0.0及最优K值bestK为0 定义K值列表k，设置K值从2取到100，K值并非直接从2连续取到100，而是隔开取值，例如，K可以取2，3，5，9，15，30，55，70，80，95。循环k列表，针对每一个K值，训练模型并利用验证数据集计算准确率accuracy，如果准确率大于最大准确率maxAccuracy，则将accuracy的值赋给maxAccuracy，K值赋给最优K值bestK，接着循环下一个K值。如果准确率小于或等于最大准确率maxAccuracy，则直接循环下一个K值。循环结束之后输出最优K值及最大准确率。 KNN算法优点简单，易于理解，易于实现，无需估计参数，无需训练；适合对稀有事件进行分类；特别适合于多分类问题(multi-modal,对象具有多个类别标签)， KNN比SVM的表现要好 KNN算法不足该算法计算量大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。维度灾难：?在计算距离的时候考虑的是实例所有属性?。但分类可能仅由2个属性决定，这中情况下属性的相似性度量会误导k-近邻算法的分类。解决办法：（1）属性加权；（2）剔除不相关的属性。 PPT问题反馈： /tj/840.jhtml 这个时候要举个例子，让同学们理解KNN的应用。学生的学习时间与学习成绩。成绩分为ABC 假如电商网站用这样一个需求。跟据客户在某个商品上的浏览时间，来确定是不是买家，从而进行精准客服。这个就可以使用KNN 来做。可以描述一下思路。大数据，成就未来 * 大数据挖掘专家 * 大数据挖掘专家大数据，成就未来 * 大数据挖掘专家 * 大数据挖掘专家大数据，成就未来 Hadoop大数据开发基础 * 1 数据预处理目录 KNN算法原理 2 KNN预测电影网站用户性别 3 KNN算法简介 KNN算法，全称是K Nearest Neighbor算法，即K最近邻分类算法。?其中的K表示最接近自己的K个数据样本。比如，有一个样本空间里的样本已经分成了几个类型，然后，给定一个待分类的数据，通过计算接近自己最近的K个样本来判断这个待分类数据属于哪个分类。简单的理解为由那离自己最近的K个点来投票决定待分类数据归为哪一类！ KNN算法简介 KNN算法简介算法步骤如下：设定参数，如k 对于每一个测试记录维护一个大小为k的按距离由小到大的队列，用于存储最近邻训练元组。遍历训练元组集，计算当前训练元组与测试元组的距离，将所得距离L与最近邻元组中的最大距离Lmax比较。若L=Lmax，则舍弃该元组，遍历下一个元组。若L Lmax，删除优先级队列中最大距离的元组，将当前训练元组存入最近邻元组。遍历完毕，计算最近邻元组中k 个元组的多数类，并将其作为测试元组的类别。 1 数据预处理目录 KNN算法原理 2 KNN预测电影网站用户性别 3 数据预处理——获取数据用户对电影的评分数据用户信息数据电影信息数据根据UserID字段连接ratings.dat数据和users.dat数据，连接结果得到一份包含UserID（用户ID），Gender（性别），Age（年龄），Occupation（职业），Zip-code（编码），MovieID（电影ID）的数据。数据预处理——数据变换根据MovieID连接movies.dat数据和/movie/ratings_users/part-m-00000上的数据，连接结果得到一份包含UserID（用户ID），Gender（性别），Age（年龄），Occupation（职业），Zip-code（编码），MovieID（电影ID），Genres（电影类型）。数据预处理——获取数据数据预处理——数据变换对每个用户看过电影类型进行统计。对Gender（性别）做一步转换，如果是女性（F）则用1标记，如果是男性（M）则用0标记数据预处理——数据清洗删除记录数据插补缺失值处理均值/中位数/众数插补使用固定值替换最近邻插补回归方法插值法异常值处理删除记录视为缺失值平均值修正在Mapper类中自定义计数器分别统计缺失值和异常值的记录数数据预处理——数据清洗缺失值、异常值均用0替换采用8:1:1的随机比例划分数据集，训练数据集占8