- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
个性化推荐十大挑战 (中)
前文介绍了个性化推荐十大挑战的背景其中的数据稀疏性问题,冷启动问题。本篇介绍个性
化推荐十大挑战中的大数据处理与增量计算问题,多样性与精确性的两难困境,推荐系统的
脆弱性问题,用户行为模式的挖掘和利用。篇幅较长,大家耐心看噢 ~
接上文:个性化推荐十大挑战 (上 )
挑战三:大数据处理与增量计算问题。
尽管数据很稀疏,大部分数据都包含百千万计的用户和商品,与此同时,新商品也不断加入系统,
新用户不停进入系统,用户和商品之间还不停产生新的连接。数据量不仅大,而且数据本身还时时
动态变化,如何快速高效处理这些数据成为迫在眉睫的问题。在这个大前提下,算法时间和空间的
复杂性,尤其是前者,获得了空前重视。一般而言,一个高效的算法,要么自身复杂性很低,要么
能够很好并行化,要么两者兼具。
提高算法的效率,有很多途径。大致上可以分为两类,一是精确算法,二是近似算法。需要注意
的是,精确算法中 精确“ ”这次词,并不是指算法的推荐精确度有多大,而是相对于近似算法而言,
强调这个算法并不是以牺牲算法中某些步骤的精确性而提高效率的。譬如说计算 n的阶乘 ,可以有不
同的高精度算法,凡是得出最后精确值的就是精确算法,而如果利用斯特林公式进行计算,就属于
近似算法了。一般而言,近似算法的效率会明显高于精确算法。
通过巧妙的方法,可以设计出效率很高的精确算法。譬如 Porteous 等人设计了一种可以用于潜层狄
利克雷分配 (Latent Dirichlet Allocation, LDA) 算法的新的采样方法,比传统吉布斯采样算法快 8 倍。
Cacheda 等人设计了一种预测算法,只考虑一个用户与其他用户打分的差异以及一个商品与其他商
品得分的差异,这个算法远远快于协同过滤算法,却能够得到比标准的基于用户的协同过滤算法更
精确的预测效果,其预测精度有时候甚至可以和 SVD 分解的方法媲美。提高精确算法的另外一条途
径就是并行化 —— 很多算法的并行化,一点都不简单。谷歌中国成功将 LDA 算法并行化并应用
于Orkut 的推荐中,取得了很好的效果。最近 Gemulla 等人提出了一种随机梯度下降法,可以并行分
解百万行列的矩阵,该方法可以应用在包括推荐在内的若干场景下。
近似算法往往基于增量计算,也就是说当产生新用户,新商品以及新的连接关系时,算法的结果不
需要在整个数据集上重新进行计算得到,而只需要考虑所增加节点和连边局部的信息,对原有的结
果进行微扰,快速得到新结果。一般而言,这种算法随着加入的信息量的增多,其误差会积累变大
,最终每过一段时间还是需要利用全局数据重新进行计算。更先进但也更苦难的办法,是设计出一
种算法,能够保证其误差不会累积,也就是说其结果与利用全部数据重新计算的结果之间的差异不
会单调上升。我们不妨把这种算法叫做自适应算法,它是增量算法的一个加强版本,其设计要求和
难度更高。增量算法已经在业界有了应用,譬如百分点推荐引擎中的若干算法都采用了增量技术,
使得用户每次新浏览、收藏或者购买商品后其推荐列表立刻得到更新。但是自适应算法目前还只是
在比较特殊的算法上面
才能实现,更勿谈工业界应用了。
图 3 :兼顾精确性和多样性的混合扩散推荐算法示意图。
挑战四:多样性与精确性的两难困境。
如果要给用户推荐他喜欢的商品,最 保险“ ”的方式就是给他特别流行的商品,因为这些商品有更大
的可能性被喜欢 (否则也不会那么流行 ),往坏了说,也很难特别被讨厌 (不要举凤姐的例子 )。但是,
这样的推荐产生的用户体验并不一定好,因为用户很可能已经知道这些热销流行的产品,所以得到
的信息量很少,并且用户不会认同这是一种 个性化的“ ”推荐。 Mcnee 等人已经警告大家,盲目崇拜精
确性指标可能会伤害推荐系统 —— 因为这样可能会导致用户得到一些信息量为 0 的 精准推荐“ ”并且视
野变得越来越狭窄。事实上,让用户视野变得狭窄也是协同过滤算法存在的一个比较主要的缺陷。
已经有一些实证研究显示,多样性、新颖性、偶然性这些从未获得过
文档评论(0)