百分点引擎研究从需求到架构.docxVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

百分点推荐引擎研究:从需求到架构

导读:百分点推荐引擎为电子商务和资讯网站提供SaaS模式的个性化推荐服务,提高网站的整站转化率和用户黏度。本文将从电子商务网站的实际需求出发,介绍百分点推荐引擎架构设计和搭建。

需求

当下,个性化时代的潮流势不可挡,业界普遍意识到了推荐是网站的一项基本服务。但是,人们对推荐该如何来做,也就是推荐技术本身,还不甚了解。我们经常会遇到这样的疑问:“购买过该商品的用户还购买过哪些商品这

种推荐,不是一个SQL语句就搞定了吗?”其实不然,推荐技术远远不是这么简单。广义上讲,推荐技术属于数据挖掘和机器学习范畴,这也意味着好的推荐服务依赖于科学的推荐算法和大量的学习数据。对于电子商务和资讯网站来

讲,想在推荐技术领域精耕细作,研发高端的推荐算法并应用到海量数据上是非常困难的。正是在这样的背景下,百分点推荐引擎应运而生。在百分点推荐引擎产品的开发过程中,我们与麦包包、红孩子、走秀网、耀点100等知名电子商务网站,以及天极网、亿邦动力等知名媒体资讯类网站的技术部门进行了深入探讨,从他们那里得到了很多帮助与启发。在与这些行业先锋的交流中我们发现,有一些需求是行业共有的,比如推荐的实时性、高可用性。另外一些需求是行业性的,比如婴幼儿用品的单品重复购买率比较高,但相同的包包的重复购买率就不算高。对于一位正在育儿的母亲,我们可以给她重复推荐符合她们偏好的、相同的奶粉和尿片,但对于一位时尚的女孩,我们向她重复推荐相同的包包可能就不合适了。

经过广泛的市场需求和交流,我们要求百分点推荐引擎能够从方方面面支持客户的市场营销策略,概括的讲主要包括:

l科学高效的推荐算法,并且根据网站特点选择最佳的推荐算法和推荐策

略;

l根据用户的全网行为分析他们的潜在偏好,帮助网站实现站内站外精准营销;

l根据全网的商品和资讯信息分析各种内容之间的相关度,帮助网站优化站外流量导入工作。

百分点推荐引擎面对的是全网的商品资讯信息以及用户行为,如何科学有效的利用这些数据为电子商务和资讯网站提供丰富的推荐服务,满足其推广营销目标,成为了我们最大的技术挑战。为此我们对百分点推荐引擎提出了以下技术要求:

l支持各种推荐算法和科学衡量指标。研究人员们已经提出了数百种推荐算法以及相应的标准数据集和推荐效果衡量指标,百分点推荐引擎必须足够灵活以便能够支持这些算法。而且我们要明确每种算法在各个数据集上的性能指标,以便为具体需求选择合适的推荐算法。

l大数据处理。面对全网资源和用户行为,如何安全可靠的存储和分析这些数据是非常关键的。我们的最低要求是每天能够处理1亿级别的数据输入和推荐请求,并且保证数据绝对安全。显然,分布式和云服务是我们唯一的选择。

l高可用性和实时性。作为一个WebService提供商,提供稳定可靠低延时的服务是基本要求,我们从用户体验角度出发,要求每个推荐请求都能在2ms内处理完成。

l可扩展性。这是所有计算机系统的普遍需求,我们要求百分点推荐引擎可以很方便的添加各种新的推荐逻辑,提供新的推荐服务。并且当整个系统需要升级扩容的时候,人力和硬件成本是线性可控的。

l便于管理。运维是WebService的重头戏,我们要求百分点推荐引擎中的各个部件(或逻辑单元)都是独立可拆卸可替换的,每个部件都要有完善的容灾备份恢复机制,这样整个系统的管理工作逐步细分,有利于分工协作。

架构设计

根据上节提出的需求,我们将百分点推荐引擎设计为一组云服务的有机组合,如上图,百分点推荐引擎可以分为存储层,业务层,算法层和管理层四大功能组件。每个组件内部又可以细分为更小的单元,或者服务模块,提供基本的存储或运算服务。单元与单元之间尽量解耦和,仅通过API协议进行协作,这样一个单元的升级变动带来的影响是可控的。每个单元都要做到可靠可用。下面,我们全面介绍百分点推荐引擎四大功能组件。

存储层

存储层提供基本的数据存取服务,并做好备份和灾难恢复工作,以保证数据的安全可靠。根据不同的应用需求,存储层细分为Redis集群,Membase集群,MySQL集群和Hadoop/HDFS四类。

lRedis集群。百分点推荐引擎采用了Redis作为缓存,用于存储热门数据,包括资源(商品或者咨询)ID,名称,链接,图片,分类,品牌等。这些信息数量不算非常多,但是使用频率非常高,基本上我们的每次推荐都要用到数十甚至数百个商品信息。之所以选用Redis,我们看重的是它的速度,持久化和以及主从机制。目前,我们使用Redis的方式是一个Master带若干个Slaves以便实现读写分离,Master只负责写,Slaves只负责读,其中两个Slave有序列化机制,并且必定有两个Slave在不同的机器

文档评论(0)

文档小天才 + 关注
实名认证
文档贡献者

就是文档小天才

1亿VIP精品文档

相关文档