协 同 算 法 总 结.pdfVIP

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

个人总结:推荐算法篇(附协同过滤等)综述

现代推荐系统

对于在线部分来说,一般要经历几个阶段。首先通过召回环节,

将给用户推荐的物品降到千以下规模(因为在具备一定规模的公司里,

是百万到千万级别,甚至上亿。所以对于每一个用户,如果对于千万

级别物品都使用先进的模型挨个进行排序打分,明显速度上是算不过

来的,资-源投入考虑这么做也不划算);如果召回阶段返回的物品还

是太多,可以加入粗排阶段,这个阶段是可选的,粗排可以通过一些

简单排序模型进一步减少往后续环节传递的物品;再往后是精排阶段,

这里可以使用复杂的模型来对少量物品精准排序(打分),排序阶段

核心目标是要精准,因为它处理的物品数据量小,所以可以采用尽可

能多的特征,使用比较复杂的模型,一切以精准为目标。对某个用户

来说,即使精排推荐结果出来了,一般并不会直接展示给用户,可能

还要上一些业务策略,比如去已读,推荐多样化,加入广告等各种业

务策略。之后形成最终推荐结果,将结果展示给用户。

对于近线部分来说,主要目的是实时收集用户行为反馈,并选择

训练实例,实时抽取拼接特征,并近乎实时地更新在线推荐模型。这

样做的好处是用户的必威体育精装版兴趣能够近乎实时地体现到推荐结果里。

对于离线部分而言,通过对线上用户点击日志的存储和清理,整

理离线训练数据,并周期性地更新推荐模型。对于超大规模数据和机

器学习模型来说,往往需要高效地分布式机器学习平台来对离线训练

进行支持。

方法概述

(1)基于内容的推荐:根据物品内容(文本信息、属性信息、分

类信息等),基于用户以往的喜欢记录,对用户的兴趣爱好进行建模

(即用户画像,userprofile),以及表达物品的特征(即物品画像,

itemprofile)。然后在物品集合中计算物品画像与用户画像的相似

度,选择最相近的N个物品(Top-N)推荐给用户。

基于内容的方法通常会抽取推荐物品的信息进行描述,常用的方

法是加权关键词向量,用户画像和物品特征可以表示为。抽取的关键

词作为推荐对象的特征,权重可以用TF-IDF、熵、信息增益和互信

息等进行计算。例如在新闻等文本相关推荐领域,就可以先进行分词,

然后利用TF-IDF计算权重,抽取关键词形成特征,建立加权关键字

向量。对于用户画像,则可以使用户所有交互过的物品的加权关键字

向量进行加权平均来表示。

不需要用户的评分数据

没有数据稀疏问题

在文本相关的推荐领域有成熟的信息检索技术和分类技术支

不存在物品冷启动问题。“冷启动”指的是,某些模型需要基

于历史数据进行推荐,而没有历史数据,就可以理解为“冷启动”。

推荐结果稳定单一,难以出现令用户惊讶的推荐结果

在多媒体领域如音乐视频图片等,难以根据物品的内容信息进

行特征抽取

需要基于用户历史数据来做推荐,对于新用户会有“冷启动”

的问题

(2)基于人口统计信息的推荐:简单根据用户基本信息来发现用

户的相关程度,然后推荐,比较简单也比较少用。

比如系统对每个用户有个资料建模,然后根据用户的资料计算互

相之间的相似度,比如图中认为A和C相似,推荐系统中称他们为“邻

居”。基于这种相似用户,将用户A喜欢的物品A推荐给用户C。

不依赖物品数据,在不同领域的物品都可以使用。

由于不依赖历史数据,所以对新用户没有“冷启动”的问题。

“冷启动”指的是,某些模型需要基于历史数据进行推荐,而没有历

史数据,就可以理解为“冷启动”。

在对个人画像需要更为精准评价的领域,如图书、电影等,无法

得到较好推荐效果。

(3)基于规则的推荐:比如基于最多点击、最多用户浏览等,属

于大众型的推荐算法,类似的比如“热门推荐排行榜”。目前不是主

流。

(4)社会化推荐:基于社交网络,利用用户的社会化关系进行推

荐,例如基于信任传播的推荐。

(5)上下文推荐:这类算法会充分利用上下文信息(例如位置、

时间、天气、情感等)提高推荐的精度和用户的满意度,常用于移动

推荐、音乐推荐等。

(6)基于集成学习和混合推荐:模型融合,通过多个推荐算法的

结合,得到一个更好的推荐算法。但是随之算法复杂度也会增加。实

际推荐应用中没有单一的协同过滤或者逻辑回归应用广泛。几种比较

流行的方法:

加权的混合:通过线性方法将几种不同的推荐组合起来。

文档评论(0)

135****1503 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档