基于knn的电影网站用户性别预测陆小马功钟浩.ppt

基于knn的电影网站用户性别预测陆小马功钟浩.ppt

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
KNN算法实战任务 KnnReducer 第一列是对测试数据的预测类别,第三列是测试数据的正确类别 KNN算法实战任务预测结果 评价分类结果准确性 评价分类结果准确性 下图是K值分别为3,4,5,6,7对应的准确率,从图中可以看出K值为3是准确率是最高的 K值的选取 K值选取 K值选取 初始化最大准确率maxAccuracy为0.0及最优K值bestK为0 定义K值列表k,设置K值从2取到100,K值并非直接从2连续取到100,而是隔开取值,例如,K可以取2,3,5,9,15,30,55,70,80,95。 循环k列表,针对每一个K值,训练模型并利用验证数据集计算准确率accuracy,如果准确率大于最大准确率maxAccuracy,则将accuracy的值赋给maxAccuracy,K值赋给最优K值bestK,接着循环下一个K值。如果准确率小于或等于最大准确率maxAccuracy,则直接循环下一个K值。 循环结束之后输出最优K值及最大准确率。 KNN算法优点 简单,易于理解,易于实现,无需估计参数,无需训练; 适合对稀有事件进行分类; 特别适合于多分类问题(multi-modal,对象具有多个类别标签), KNN比SVM的表现要好 KNN算法不足 该算法计算量大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。 维度灾难:?在计算距离的时候考虑的是实例所有属性?。但分类可能仅由2个属性决定,这中情况下属性的相似性度量会误导k-近邻算法的分类。 解决办法:(1)属性加权;(2)剔除不相关的属性。 PPT问题反馈: /tj/840.jhtml 这个时候要举个例子,让同学们理解KNN的应用。 学生的学习时间与学习成绩。成绩分为ABC 假如电商网站用这样一个需求。跟据客户在某个商品上的浏览时间,来确定是不是买家,从而进行精准客服。 这个就可以使用KNN 来做。可以描述一下思路。 大数据,成就未来 * 大数据挖掘专家 * 大数据挖掘专家 大数据,成就未来 * 大数据挖掘专家 * 大数据挖掘专家 大数据,成就未来 Hadoop大数据开发基础 * 1 数据预处理 目录 KNN算法原理 2 KNN预测电影网站用户性别 3 KNN算法简介 KNN算法,全称是K Nearest Neighbor算法,即K最近邻分类算法。?其中的K表示最接近自己的K个数据样本。 比如,有一个样本空间里的样本已经分成了几个类型,然后,给定一个待分类的数据,通过计算接近自己最近的K个样本来判断这个待分类数据属于哪个分类。 简单的理解为由那离自己最近的K个点来投票决定待分类数据归为哪一类! KNN算法简介 KNN算法简介 算法步骤如下: 设定参数,如k 对于每一个测试记录维护一个大小为k的按距离由小到大的队列,用于存储最近邻训练元组。 遍历训练元组集,计算当前训练元组与测试元组的距离,将所得距离L与最近邻元组中的最大距离Lmax比较。 若L=Lmax,则舍弃该元组,遍历下一个元组。若L Lmax,删除优先级队列中最大距离的元组,将当前训练元组存入最近邻元组。 遍历完毕,计算最近邻元组中k 个元组的多数类,并将其作为测试元组的类别。 1 数据预处理 目录 KNN算法原理 2 KNN预测电影网站用户性别 3 数据预处理——获取数据 用户对电影的评分数据 用户信息数据 电影信息数据 根据UserID字段连接ratings.dat数据和users.dat数据,连接结果得到一份包含UserID(用户ID),Gender(性别),Age(年龄),Occupation(职业),Zip-code(编码),MovieID(电影ID)的数据。 数据预处理——数据变换 根据MovieID连接movies.dat数据和/movie/ratings_users/part-m-00000上的数据,连接结果得到一份包含UserID(用户ID),Gender(性别),Age(年龄),Occupation(职业),Zip-code(编码),MovieID(电影ID),Genres(电影类型)。 数据预处理——获取数据 数据预处理——数据变换 对每个用户看过电影类型进行统计。对Gender(性别)做一步转换,如果是女性(F)则用1标记,如果是男性(M)则用0标记 数据预处理——数据清洗 删除记录 数据插补 缺失值处理 均值/中位数/众数插补 使用固定值替换 最近邻插补 回归方法 插值法 异常值处理 删除记录 视为缺失值 平均值修正 在Mapper类中自定义计数器分别统计缺失值和异常值的记录数 数据预处理——数据清洗 缺失值、异常值均用0替换 采用8:1:1的随机比例划分数据集, 训练数据集占8

文档评论(0)

陆小马公主号 + 关注
实名认证
内容提供者

陆小马 功钟浩 分享资源

1亿VIP精品文档

相关文档