网站大量收购闲置独家精品文档,联系QQ:2885784924

个性化推荐十大挑战(中).pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
个性化推荐十大挑战 (中) 前文介绍了个性化推荐十大挑战的背景其中的数据稀疏性问题,冷启动问题。本篇介绍个性 化推荐十大挑战中的大数据处理与增量计算问题,多样性与精确性的两难困境,推荐系统的 脆弱性问题,用户行为模式的挖掘和利用。篇幅较长,大家耐心看噢 ~ 接上文:个性化推荐十大挑战 (上 ) 挑战三:大数据处理与增量计算问题。 尽管数据很稀疏,大部分数据都包含百千万计的用户和商品,与此同时,新商品也不断加入系统, 新用户不停进入系统,用户和商品之间还不停产生新的连接。数据量不仅大,而且数据本身还时时 动态变化,如何快速高效处理这些数据成为迫在眉睫的问题。在这个大前提下,算法时间和空间的 复杂性,尤其是前者,获得了空前重视。一般而言,一个高效的算法,要么自身复杂性很低,要么 能够很好并行化,要么两者兼具。 提高算法的效率,有很多途径。大致上可以分为两类,一是精确算法,二是近似算法。需要注意 的是,精确算法中 精确“ ”这次词,并不是指算法的推荐精确度有多大,而是相对于近似算法而言, 强调这个算法并不是以牺牲算法中某些步骤的精确性而提高效率的。譬如说计算 n的阶乘 ,可以有不 同的高精度算法,凡是得出最后精确值的就是精确算法,而如果利用斯特林公式进行计算,就属于 近似算法了。一般而言,近似算法的效率会明显高于精确算法。 通过巧妙的方法,可以设计出效率很高的精确算法。譬如 Porteous 等人设计了一种可以用于潜层狄 利克雷分配 (Latent Dirichlet Allocation, LDA) 算法的新的采样方法,比传统吉布斯采样算法快 8 倍。 Cacheda 等人设计了一种预测算法,只考虑一个用户与其他用户打分的差异以及一个商品与其他商 品得分的差异,这个算法远远快于协同过滤算法,却能够得到比标准的基于用户的协同过滤算法更 精确的预测效果,其预测精度有时候甚至可以和 SVD 分解的方法媲美。提高精确算法的另外一条途 径就是并行化 —— 很多算法的并行化,一点都不简单。谷歌中国成功将 LDA 算法并行化并应用 于Orkut 的推荐中,取得了很好的效果。最近 Gemulla 等人提出了一种随机梯度下降法,可以并行分 解百万行列的矩阵,该方法可以应用在包括推荐在内的若干场景下。 近似算法往往基于增量计算,也就是说当产生新用户,新商品以及新的连接关系时,算法的结果不 需要在整个数据集上重新进行计算得到,而只需要考虑所增加节点和连边局部的信息,对原有的结 果进行微扰,快速得到新结果。一般而言,这种算法随着加入的信息量的增多,其误差会积累变大 ,最终每过一段时间还是需要利用全局数据重新进行计算。更先进但也更苦难的办法,是设计出一 种算法,能够保证其误差不会累积,也就是说其结果与利用全部数据重新计算的结果之间的差异不 会单调上升。我们不妨把这种算法叫做自适应算法,它是增量算法的一个加强版本,其设计要求和 难度更高。增量算法已经在业界有了应用,譬如百分点推荐引擎中的若干算法都采用了增量技术, 使得用户每次新浏览、收藏或者购买商品后其推荐列表立刻得到更新。但是自适应算法目前还只是 在比较特殊的算法上面 才能实现,更勿谈工业界应用了。   图 3 :兼顾精确性和多样性的混合扩散推荐算法示意图。 挑战四:多样性与精确性的两难困境。 如果要给用户推荐他喜欢的商品,最 保险“ ”的方式就是给他特别流行的商品,因为这些商品有更大 的可能性被喜欢 (否则也不会那么流行 ),往坏了说,也很难特别被讨厌 (不要举凤姐的例子 )。但是, 这样的推荐产生的用户体验并不一定好,因为用户很可能已经知道这些热销流行的产品,所以得到 的信息量很少,并且用户不会认同这是一种 个性化的“ ”推荐。 Mcnee 等人已经警告大家,盲目崇拜精 确性指标可能会伤害推荐系统 —— 因为这样可能会导致用户得到一些信息量为 0 的 精准推荐“ ”并且视 野变得越来越狭窄。事实上,让用户视野变得狭窄也是协同过滤算法存在的一个比较主要的缺陷。 已经有一些实证研究显示,多样性、新颖性、偶然性这些从未获得过

文档评论(0)

tianya189 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体阳新县融易互联网技术工作室
IP属地湖北
统一社会信用代码/组织机构代码
92420222MA4ELHM75D

1亿VIP精品文档

相关文档