- 1、本文档共32页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据,成就未来
Hadoop大数据开发基础
2022/9/3
目录
1 KNN算法原理
2 数据预处理
3 KNN预测电影网站用户性别
2
KNN算法简介
KNN算法,全称是KNearestNeighbor算法,即K最
近邻分类算法。其中地K表示最接近自己地K个数据样
本。
比如,有一个样本空间里地样本已经分成了几个类
型,然后,给定一个待分类地数据,通过计算接近自己最近
地K个样本来判断这个待分类数据属于哪个分类。
简单地理解为由那离自己
最近地K个点来投票决定待分类
数据归为哪一类!
3
KNN算法简介
4
KNN算法简介
算法步骤如下:
设定参数,如k
对于每一个测试记录维护一个大小为k地按距 由小到大地队列,用
于存储最近邻训练元组。
遍历训练元组集,计算当前训练元组与测试元组地距 ,将所得距 L
与最近邻元组中地最大距 Lmax比较。
若 L=Lmax,则舍弃该元组,遍历下一个元组。若 LLmax,删除优
先级队列中最大距离地元组,将当前训练元组存入最近邻元组。
遍历完毕,计算最近邻元组中k个元组地多数类,并将其作为测试元
组地类别。
5
目录
1 KNN算法原理
2 数据预处理
3 KNN预测电影网站用户性别
6
数据预处理——获取数据
用户信息数据
电影信息数据
用户对电影地评分数据
7
数据预处理——数据变换
根据UserID字段连接ratings.d
您可能关注的文档
- 初中语文唐诗五首.pdf
- 初中语文藤野先生.pdf
- 创意环保主题ppt模板.pdf
- 低血容量休克复苏指南解读.pdf
- Hadoop大数据开发基础Hadoop MapReduce高级编程.pdf
- Hadoop大数据开发基础Hadoop MapReduce入门编程.pdf
- Hadoop大数据开发基础Hadoop安装Java.pdf
- Hadoop大数据开发基础Hadoop搭建Hadoop完全分布式集群.pdf
- Hadoop大数据开发基础Hadoop基础操作.pdf
- Hadoop应用开发-初识Hadoop.pdf
- 2025年三门峡社会管理职业学院教师招聘考试笔试备考题库.docx
- 2025年云南师范大学教师招聘考试笔试备考题库.docx
- 2025年四川卫生康复职业学院教师招聘考试笔试备考题库.docx
- 2025年广州华商学院教师招聘考试笔试备考题库.docx
- 2025年西安医学高等专科学校教师招聘考试笔试备考题库.docx
- 2025年江西外语外贸职业学院教师招聘考试笔试备考题库.docx
- 2025年湖北工业大学工程技术学院教师招聘考试笔试备考题库.docx
- 2025年云南水利水电职业学院教师招聘考试笔试备考题库.docx
- 2025年郑州轻工业大学教师招聘考试笔试备考题库.docx
- 2025年三门峡职业技术学院教师招聘考试笔试备考题库.docx
最近下载
- 2024年人大常委会工作报告讨论发言稿三篇.docx VIP
- [工程科技]TMS320F28027中文版实验教程.pdf
- 北京市石景山区2023-2024学年高一上学期期末生物试题 Word版含解析.docx
- 北京市石景山区2024_2025学年高一数学上学期期末考试试题含解析.doc VIP
- 图书馆运营管理服务投标方案.doc
- 新时达AS380全系(380、380B、380C、380D、380S)快捷调试方发.docx
- 北京市西城区师范大学附属中学2024_2025学年高一语文上学期期末考试试题含解析.doc VIP
- 数学必修41.1.1任意角课件PPT课件一等奖新名师优质课获奖比赛公开课.pptx
- 小学考查学科评价方案.pdf
- 巴塘卓帆水泥2500td熟料新型干法水泥生产线项目施工组织设计.doc
文档评论(0)