个性化推荐十大挑战(中).pdf

下载文档

2
0
约5.13千字
约 6页
2017-07-03 发布于河南
举报
版权申诉
保障服务

个性化推荐十大挑战(中).pdf

1、本文档共6页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

个性化推荐十大挑战(中)

个性化推荐十大挑战(中) 前文介绍了个性化推荐十大挑战的背景其中的数据稀疏性问题，冷启动问题。本介绍个性化推荐十大挑战中的大数据处理与增量计算问题，多样性与精确性的两难困境，推荐系统的脆弱性问题，用户行为模式的挖掘和利用。幅较长，大家耐心看噢~ 接上文：个性化推荐十大挑战(上) 挑战三：大数据处理与增量计算问题。尽管数据很稀疏，大部分数据都包含百千万计的用户和商品，与此同时，新商品也不断加入系统，新用户不停进入系统，用户和商品之间还不停产生新的连接。数据量不仅大，而且数据本身还时时动态变化，如何快速高效处理这些数据成为迫在眉睫的问题。在这个大前提下，算法时间和空间的复杂性，尤其是前者，获得了空前重视。一般而言，一个高效的算法，要么自身复杂性很低，要么能够很好并行化，要么两者兼具。提高算法的效率，有很多途径。大致上可以分为两类，一是精确算法，二是近似算法。需要注意的是，精确算法中“精确”这次词，并不是指算法的推荐精确度有多大，而是相对于近似算法而言，强调这个算法并不是以牺牲算法中某些步骤的精确性而提高效率的。譬如说计算n的阶乘,可以有不同的高精度算法，凡是得出最后精确值的就是精确算法，而如果利用斯特林公式进行计算，就属于近似算法了。一般而言，近似算法的效率会明显高于精确算法。通过巧妙的方法，可以设计出效率很高的精确算法。譬如Po rt eo us等人设计了一种可以用于潜层狄利克雷分配(Lat ent Dirichlet A llocat io n, LDA )算法的新的采样方法，比传统吉布斯采样算法快8倍。 Cacheda等人设计了一种预测算法，只考虑一个用户与其他用户打分的差异以及一个商品与其他商品得分的差异，这个算法远远快于协同过滤算法，却能够得到比标准的基于用户的协同过滤算法更精确的预测效果，其预测精度有时候甚至可以和SV D分解的方法媲美。提高精确算法的另外一条途径就是并行化——很多算法的并行化，一点都不简单。谷歌中国成功将LDA算法并行化并应用于O rkut 的推荐中，取得了很好的效果。最近 emulla等人提出了一种随机梯度下降法，可以并行分解百万行列的矩阵，该方法可以应用在包括推荐在内的若干场景下。近似算法往往基于增量计算，也就是说当产生新用户，新商品以及新的连接关系时，算法的结果不需要在整个数据集上重新进行计算得到，而只需要考虑所增加节点和连边局部的信息，对原有的结果进行微扰，快速得到新结果。一般而言，这种算法随着加入的信息量的增多，其误差会积累变大，最终每过一段时间还是需要利用全局数据重新进行计算。更先进但也更苦难的办法，是设计出一种算法，能够保证其误差不会累积，也就是说其结果与利用全部数据重新计算的结果之间的差异不会单调上升。我们不妨把这种算法叫做自适应算法，它是增量算法的一个加强版本，其设计要求和难度更高。增量算法已经在业界有了应用，譬如百分点推荐引擎中的若干算法都采用了增量技术，使得用户每次新浏览、收藏或者购买商品后其推荐列表立刻得到更新。但是自适应算法目前还只是在比较特殊的算法上面才能实现，更勿谈工业界应用了。　　图3 ：兼顾精确性和多样性的混合扩散推荐算法示意图。挑战四：多样性与精确性的两难困境。如果要给用户推荐他喜欢的商品，最“保险”的方式就是给他特别流行的商品，因为这些商品有更大的可能性被喜欢(否则也不会那么流行) ，往坏了说，也很难特别被讨厌(不要举凤姐的例子)。但是，这样的推荐产生的用户体验并不一定好，因为用户很可能已经知道这些热销流行的产品，所以得到的信息量很少，并且用户不会认同这是一种“个性化的”推荐。Mcnee等人已经警告大家，盲目崇拜精确性指标可能会伤害推荐系统——因为这样可能会导致用户得到一些信息量为0的“精准推荐”并且视野变得越来越狭窄。事实上，让用户视野变得狭窄也是协同过滤算法存在的一个比较主要的缺陷。已经有一些实证研究显示，多样性、新颖性、偶然性这些从未获得过如精确性一般重要地位的因素，对于用户体验都十分重要——譬如用户希望音乐推荐更多样更偶然。与此同时，应用个性化推荐技术的商家，也希望推荐中有更多的品类出现，从而激发用户新的购物需求。多样性和新颖性的要求在大多数情况下具有一致性，一些商家更喜欢引导用户关注一些销量一般的长尾商品(这些商品的利润往往更多) ，这种新颖性的要求往往和多样性的要求一致。还有