- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据时代,实时数据分析才是真理教程
大数据时代,实时数据分析才是真理
编辑整理/智库2861
概述:随着大数据时代的来临,如何帮助用户从大量信息中迅速获得对自己有用的信息成为众多商家的重要任务,个性化推荐系统应运而生。个性化推荐系统以海量数据挖掘为基础,引导用户发现自己的信息需求,现已广泛应用于很多领域。
INCLUDEPICTURE \d /Content/files/2016/5/23/e35a749088564f438436c8f86261cd24635995952553860888.jpg \* MERGEFORMATINET
传统的个性化推荐系统,采用定期对数据进行分析的做法来更新模型。由于是定期更新,推荐模型无法保持实时性,对用户当前的行为推荐结果可能不会非常精准。实时个性化推荐实时分析用户产生的数据,可以更准确地为用户进行推荐,同时根据实时的推荐结果进行反馈,更好地改进推荐模型。
1.? HYPERLINK / \t /article/2016/5/23/_blank 大数据实时计算平台
大数据实时计算平台TRC[1]由实时数据接入TDBank、实时数据处理TDProcess、和分布式K-V存储TDEngine等部分组成,其中TDBank主要负责从业务侧接入实时数据,如用户行为数据、物品信息数据等;TDProcess基于Storm对实时流入的数据进行计算,并利用TDEngine存储计算结果,以供推荐引擎等使用。
INCLUDEPICTURE \d /Content/files/2016/5/23/afe02d911d9de8c1a79eea635995952669997531.png \* MERGEFORMATINET
TRC的主要框架如上图所示,有关TRC的文章已经有很多,这里不作详述,有兴趣的读者可以参考文章[1]获得详细描述。
2. 推荐算法实时化
基于Storm的实时计算能够针对海量流式数据进行有效的统计处理,然而流式计算在机器学习算法方面有着天然的劣势,而要完成 HYPERLINK / \t /article/2016/5/23/_blank 大数据实时推荐,只是实时统计显然是不够的,我们希望能实现推荐算法的实时化更新计算。
流式实时计算在机器学习方面的局限性主要表现在两方面:首先,由于数据是以流的形式进入Storm平台计算,在任何时刻,我们都只有目前流入的数据,而没有传统的全局数据概念,而在全局数据上进行迭代计算正是许多机器学习算法需要的;其次,Storm平台是计算数据易失的,在海量数据背景下,如何保证模型的有效存储及更新维护成为一个挑战。
对于上述第二点不足,我们使用了TDE作为解决方案,TDE作为一个高容错、高可用性的分布式K-V存储,很好的满足了我们对计算数据的存储需求。而对于第一点不足,我们通过精细的设计,将原始的离线计算转化为增量计算,并实现了几类经典算法:
CF算法:协同过滤算法,根据当前时间用户对物品的行为,实时更新物品间的共现数据和用户的兴趣分布数据,以计算物品间和用户间的相似度,进行基于物品或用户的协同推荐。
CB算法:通过分析用户的实时行为数据,更新计算用户和不同物品间的内容相似度,以对用户进行推荐。
Hot算法:通过接收所有用户的实时行为数据,实时更新物品的热度,分析得到当前的热点物品,如实时热点新闻等,以对用户进行实时的推荐。
MF算法:协同过滤矩阵分解算法,根据用户对物品的行为评分矩阵,将矩阵分解为用户和物品的特征向量,以预测用户对物品的喜好,来进行推荐。
实现框架
下图为基于Storm实现的框架图,系统可以分为五层,数据接入层,数据预处理层,算法处理层,商品信息补充层,和存储层。数据接入层负责接收数据,预处理层负责根据历史数据对数据进行补全或者过滤等。算法处理层,是系统的主体部分,负责对数据进行分析处理,实现相关推荐算法的计算,将算法结果传入下一层。商品信息补充层负责对算法结果进行商品信息补全,这里补全是为了后续与离线模型结合或向用户推荐时,进一步对推荐结果做筛选的。最后一层是存储层,负责将结果存入存储部分,以供使用。
INCLUDEPICTURE \d /Content/files/2016/5/23/c3e170aaaa3a7ebe385ae7635995952738731462.png \* MERGEFORMATINET
数据接入层
数据接入层负责接入数据,并且做简单的检查,对应TdbankSpout。通用推荐平台接收的数据共有五类,包括类别数据,行为权重数据,商品属性,用户属性,以及用户行为数据。
类别数据:是各个商品的类别的描述和等级,用于基础数据统计
行为权重数据:各个行为的权重,用于基础数据统计
商品属性:各个商品的
您可能关注的文档
- 17、君主集权的强化-zy要点.ppt
- 大堂脚手架施工方案教程.doc
- 18中华文明和世界文明相互交融要点.ppt
- 17。。。。《端午的鸭蛋》要点.ppt
- 大型锅炉安装施工方案教程.doc
- 18届16年4月高一下期中考全部16K考试版要点.doc
- 大学思修期末考试复习资料教程.doc
- 大学四级英语必背1000个词组(打印版)教程.doc
- 17班高考冲刺137天寒假家长会主题班会课件要点.ppt
- 18她是我的朋友要点.ppt
- 600367_2021_#CSR_红星发展_红星发展2021年度履行社会责任报告_2022-04-21.pdf
- 600227_2021_#CSR_圣济堂_贵州圣济堂医药产业股份有限公司2021年度社会责任报告_2022-04-22.pdf
- 603879_2021_#CSR_永悦科技_永悦科技股份有限公司2021年度社会责任报告_2022-04-19.pdf
- 600439_2021_#CSR_瑞贝卡_社会责任报告_2022-04-29.pdf
- 002073_2021_#CSR_软控股份_2021年社会责任报告_2022-04-25.pdf
- 600592_2021_#CSR_龙溪股份_龙溪股份2021年度社会责任报告_2022-04-22.pdf
- 002317_2021_#CSR_众生药业_2021年社会责任报告_2022-04-25.pdf
- 600496_2021_#CSR_精工钢构_精工钢构2021年度社会责任报告_2022-04-29.pdf
- 000065_2021_#CSR_北方国际_2021年社会责任报告_2022-04-29.pdf
- 603032_2021_#CSR_*ST德新_德力西新疆交通运输集团股份有限公司2021年度企业社会责任报告_2022-04-25.pdf
最近下载
- 围棋经典定式.pdf VIP
- 外空法与国际太空探索考核试卷.docx VIP
- (高清版)B-T 42588-2023 系统与软件工程 功能规模测量 NESMA方法.pdf VIP
- 部编版七年级上册语文背诵篇目.pdf VIP
- 人教版2025年八年级数学下学期期末总复习(专题训练)八下期末真题百题大通关(158题58题型)(基础版)(学生版+解析).docx VIP
- 地形学的基本知识4小时.ppt VIP
- 工程变更情形下措施费争议的裁判规则.docx
- 从业人员安全培训教育档案(一人一档).pdf VIP
- 碳排放管理员(高级)认证考试复习题及答案.doc VIP
- 2025年租房合同范本(可直接打印)与租房合同范本(完美打印版) .pdf VIP
文档评论(0)