- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
??
?
??
基于群组划分与协同过滤的视频推荐
?
??
?
?
?
?
?
?
?
???
?
?
?
?
?
电视节目推荐类算法已有十分成熟的算法,本文旨在一些常用算法的基础上添加新的视频推荐模式来适应更加宽泛的手机视频用户。先利用群组划分的方法将不同喜好种类的用户分组,与其它聚类方法不同的是,在分组的环节添加除开用户评分和单人喜好综合矩阵的第二群组划分,将存在多种共同爱好的用户分组借此来将同组用户的喜好相互推荐的目的。
视频推荐群组划分协同过滤
中图分类号TP391文献标志码ADOI:
引言
网络时代飞速发展,智能手机的愈发轻便且功能强大,通过手机浏览视频的人数已超过其余任何电子设备。手机视频用户大多倾向于短视频且特点与以往与传统的电视节目播放有所不同。用户通过手机浏览视频属于个人行为,不论是在家中或公共场合,大多浏览行为都是针对用户个人,而电视节目推荐往往需要综合一群人的喜好来进行。更重要的是,手机与用户的生活等息息相关,已经属于个人隐私的范畴,其浏览的视频内容就包含了相当的私密性不可能随意与他人分享。这就导致了每个用户实际的偏好十分宽泛,用户自由隐蔽的选择视频存在巨大的变动性,新奇事物的视频或羞于与人分享的视频等都可能被用户选择。
如果可以把相同爱好的用户划到同一分组,并将每个用户不同的偏好直接性的推荐给同组用户,同组推荐的视频不考虑偏好权值,相当于推荐全新类型视频推荐给用户,若用户并无兴趣,则将该类视频权值调低并减少推荐次数,若用户对于系统源于同好分组推荐的视频大多不感兴趣,则将其移除该分组。
技术背景概述
群组划分
聚类分析(cluster?analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。?聚类分析也叫分类分析(classification?analysis)或数值分类(numerical?taxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的,但是这同时也是聚类方法的优越之处。
本文聚类只要有两个方面,一是基于项目,二是基于用户。项目的划分就是对视频类别的划分,每个视频都含有多个标签,把每个视频进行分类后群组基本不变,因为视频的类别是不会随意变动的。用户的划分就是对存在相同兴趣的用户进行分组,组内用户相互推送新的视频,这里的推荐范围我们将其扩大化,用户组内的推荐不要求用户对该视频的偏好率多大。
K-Means算法的思想很简单,对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。
如果用数据表达式表示,假设簇划分为(C1,C2,...Ck)(C1,C2,...Ck),则目标是最小化平方误差E:
其中是簇CiCi的均值向量,有时也称为质心,表达式为:
基于用户的聚类划分选用马尔可夫聚类算法(MCL),其核心是建立多点之间的相关性矩阵,然后通过加权、标准化矩阵、添加自环等优化,最后Expansion。重复上述几步直至稳定,将矩阵化为聚簇。
以上是邻接矩阵的概率化公式,之后重复Expansion和Inflation两个操作并标准化即可。
具体模块实现
基于K-Means和MCL的群组划分
(1)将样本数据化为集合D,代表所有的样本视频。
(2)D中选出的k个质心:{,,…,},即k个具有代表性的视频,其中必须特征鲜明且u之间的联系与属性重复越少越好,即两质心之间距离足够。EEEEE
(3)对于n=1,2,…,N;其中n为迭代的次数。
(a)将簇划分为C初始化=,t=1,2,..k
(b)对于i=1,2…m,计算样本和各个质点向量(j=1,2,…k)的距离:
将标记最小的为所对应的类别。此时更新={}
(c)对于j=1,2,…,k对中所有的样本点重新计算新的质心:
(d)如果所有质心向量都没有发生变化,则开始下一步。
(4)输出簇划分C={,,...,}
添加自环,这一步针对概率矩阵P不管进行几次计算也不会收敛的情况。
标准化概率矩阵,这一步将邻接矩阵进行标准化为概率矩阵,这时每个权值数据变成用户之间联系的概率大小。
Expansion操作,每次对矩阵进行e次幂方,对概率矩阵进行膨胀。
Inflation操作,每次对矩阵内元素进行r次幂方,再进行标准化。为了解决Expansion所导致的概率趋同问题,Inflation就是将概率矩阵中的每个值进行了一次幂次扩大,这样就能强化紧密的点,弱化松散的点。
将结果化为聚簇。
协同过滤
一个同时考虑播放量和用户个人评分的加权公式——WeightedRating(WR):
其中v是视频的播放量,m是被记入该系统的最低播放量,r是用户喜爱的投票数,c是所有视频的平均播
您可能关注的文档
最近下载
- 2024年秋新人教PEP版英语三年级上册全册教学课件(新版教材).pptx
- 围手术期肺功能的保护.ppt
- 智慧电厂数字化转型整体解决方案 [1460页Word].doc VIP
- 计算机维修工三级(高级)理论考试题库(单选题汇总).docx VIP
- 浙江省湖州市2023-2024学年八年级下学期期末考试英语试题(含答案及听力原文,无音频).pdf VIP
- 高血压患者服药依从性现状及护理干预.doc
- 中国各省市矢量地图素材课件课件.ppt
- 专业基础知识(给排水)考试试卷(共四套)含答案解析.pdf
- 2024年保健按摩师(高级)职业技能鉴定考试题库(含答案).docx
- 中国传统文化概论(第三版) 课件 第五章 中国传统陵寝.pptx
文档评论(0)