- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于群体相似性的智能推荐模型剖析
基于群体相似性的智能推荐模型
目录
1
2
基于协同过滤的推荐模型
功能
根据用户之间在历史访问记录上的关联性,预测用户对于未访问项的偏好程度,并进行推荐
适用范围
业务产品、互联网内容资讯、广告等内容推荐,不需要内容的文本特征,只要有用户的历史访问、下载、评分等数据即可
模型输入
目标用户u、系统中所有用户访问过的内容项(页面、文章、书籍)集合I及对每个用户对集合中元素的访问权重(可以是访问频次、评分值或根据不同的用户行为类型指定一个相应权值)
模型输出
目标用户u可能喜欢的Top-N项列表
用户数据分析平台中提供了多种类型的协同过滤算法,主要包括:
a.以用户为中心的算法。为目标用户构建与其偏好类似的近邻集合,向其推荐近邻里用户的喜好的项集;
b.以Item为中心的算法。为每个Item构建近邻集合,向目标用户推荐与其历史访问记录相似的项集;
c.基于Item影响集合的算法。扩展以Item为中心的算法,考虑逆向近邻以改善性能;
d.基于二部图随机游走的算法。利用用户和Item之间的传递关联性改善性能;
e.基于矩阵分解的算法。通过矩阵分解技术将用户访问记录矩阵映射到低维空间,提升在线计算的效率。
3
基于协同过滤的推荐模型
用户
游戏a
游戏 b
游戏 c
游戏d
游戏e
x
1
2
3
1
y
3
4
1
3
z
3
4
4
?
?
示例为一个用户-项目评分矩阵,其中评分值代表用户对项目的偏好度。评分值可以是由用户提供的,或者是按照某种转化原则从用户行为中推导出的,例如浏览为1分、下载免费版本为2分、付费购买为3分、给予好评得4分
示例
我们假定任务是向用户z推荐一个他尚未下载过的最喜欢游戏,在本例中,这个问题简化为从游戏d和游戏e中挑选一个用户z最可能喜欢的。根据历史记录,用户z与用户y的相似程度较高,因此用户y的评价会更接近于z的观点,游戏e可能是用户z较喜欢的。
实际系统中的用户数和项目数量通常非常庞大,因此这个筛选过程也要复杂得多
4
基于协同过滤的推荐模型
用户
Item a
Item b
x
3
4
y
2
4
z
4
?
用户z对事物b的评分可能是多少?SlopeOne算法认为:平均值也可以代替某两个未知个体之间的评分差异,事物a对事物b的平均差是:((3 – 4) + (2 – 4)) / 2 = -1.5,也就是说人们对事物b的评分一般比事物a的评分要高1.5,于是SlopeOne算法就猜测z对事物b的评分是4 + 1.5 = 5.5
5
基于FP Tree的关联规则推荐模型
功能
挖掘用户访问记录中存在频繁模式,最后根据频繁模式生成带有置信度权重的关联推荐规则,用于关联性产品、内容、链接推荐等用途
适用范围
业务产品、互联网内容资讯、广告等内容推荐,具体展现通常为在页面中生成相关列表
模型输入
系统中所有用户访问过的内容项(页面、文章、书籍)集合I及对每个用户对集合中元素的访问情况,当前的请求项i
模型输出
与当前请求项i相关的Top-N项列表
用户数据分析平台中使用如下方式对关联规则挖掘进行改进:
a.基于频繁树的优化。按照数据库中的访问事务集生成频繁模式树,再对频繁模式树进行挖掘生成频繁模式,最后根据频繁模式生成带有置信度权重的关联推荐规则
b.聚类优化。预先对项目进行聚类,按照类别生成关联规则。
6
基于FP Tree的关联规则推荐模型
歌曲1
歌曲2
歌曲3
歌曲4
歌曲4
歌曲5
歌曲5
歌曲7
歌曲8
歌曲9
歌曲10
歌曲11
歌曲12
1
0
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
1
1
0
1
1
0
0
0
0
0
0
0
1
0
0
1
0
0
1
0
0
1
0
0
0
0
0
1
0
0
0
0
1
1
0
0
0
0
0
0
1
1
1
0
1
0
0
0
1
0
0
0
0
1
0
0
0
0
0
1
0
0
1
1
0
0
1
1
0
0
1
0
0
0
0
0
0
0
0
1
0
1
0
0
0
0
0
1
1
1
0
0
0
1
0
0
0
0
0
1
0
0
0
0
0
1
1
0
0
1
1
1
0
0
0
0
0
1
1
1
1
0
0
0
0
0
0
0
0
1
0
0
0
0
1
0
0
0
0
0
1
1
0
0
1
1
0
0
0
0
0
1
0
0
0
0
0
1
0
0
0
0
1
1
0
0
0
1
0
0
1
1
0
0
1
0
1
0
0
0
1
。。。
。。。
。。。
。。。
。。。
。。。
。。。
。。。
。。。
。。。
。。。
。。。
。。。
示例
规则1:下载过歌曲5的用户也下载过歌曲3(置信度67%,覆盖率5%)
规则2:下载过歌曲5的用户也下载过歌曲6(置信度50%,覆盖
文档评论(0)