基于spark平台推荐系统研究-控制科学与工程专业论文.docx

基于spark平台推荐系统研究-控制科学与工程专业论文.docx

  1. 1、本文档共106页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于spark平台推荐系统研究-控制科学与工程专业论文

研究生优秀毕业论文中国科学技术大学学位论文原创性声明本人声明所旱交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研究成果。与我一|一工作的同志对本研究所做的贡献均已在论文中作了明确的说明。作者签名:签字日期:!冱坚。丕:!中国科学技术大学学位论文授权使用声明作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入《L卜l国学位论文伞文数据库》等有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。必威体育官网网址的学位论文在解密后也遵守此规定。导师签名:盈签宁日期:丝!£!鱼:』万方数据摘要摘要现代互联网的高速发展产生了大量富有价值的互联网信息,如何从海量的数据中挖掘出有用的信息是具有重大意义的课题。大数据平台的研究与发展就是在这一背景下兴起。Hadoop的诞生使人们关注MapReduce这一计算模式的研究,而Spark通过引入RDD数据模型及基于内存的运算模式,使其能很好地适应大数据的数据挖掘这‘场景,并且在迭代计算方面优于Hadoop,迅速成为了广大企业、学者的研究重点。推荐系统是一种从海量用户行为数据中挖掘有用信息并提供给用户的应用,推荐系统中推荐算法的实现是数据挖掘的重要部分。基于传统计算机的推荐算法实现过程需要耗费大量的时间,不能满足当今的商业需求,而结合分布式计算平台的并行化实现能有效解决这一问题,并且推荐算法实现过程中存在多次迭代计算,Spark的出现正是迎合了推荐算法并行化实现这一需求。鉴于目前国内外基于Spark平台的各类应用的发展趋势,本文将基于Spark平台对推荐算法相关技术进行研究,主要包括以下两个方面:(1)基于Spark平台推荐算法并行化研究。在对Spark平台及推荐系统相关技术研究基础上,首先对基于Spark平台推荐算法并行化实现过程进行了设计,详细分析了算法在提交后集群节点的作用及任务的分配情况;其次对基于Spark平台推荐算法并行化进行实现,主要实现了基于用户的协同过滤、基于物品的协同过滤及基于ALS模型推荐算法,给出了详细的并行化实现过程,并加以分析:最后以实例的形式详细分析了Spark存算法实现过程中,如何进行数据及任务的并行化。(2)基二J二Spark平台并行化实现的优化。优化主要包括两个方面:平台的优化及推荐算法的优化。在推荐算法并行化实现过程中,发现Spark集群节点异构情况下,存在任务调度不合理问题,提m异构Spark集群白适应任务调度策略HSATS。基于邻域推荐算法优化方面,提出对用户或物品的隐含标签属性进行向量化,并最终与相似度计算进行融合。基于ALS模型推荐算法方面,设计了一种新的损失函数,将模型训练前的用户及物品相似性信息融合进去。实验结果表明,Spark在推荐算法这一需要多次迭代的并行化实现过程中性能优于Hadoop。在异构Spark集群情况下,HSATS自适应任务调度策略能减少作业的完成时问,集群节点资源利用更合理。提m的推荐算法优化方案,提高了推荐系统的评测指标。万方数据摘要关键词:大数据Spark推荐系统并行化协同过滤万方数据ABSTRACTABSTRACTTherapiddevelopmentofmodernInternetgeneratesalargenumberofvaluableinformation.Howtofindusefulinfornmionfrommassivedataisaprojectofgreatsignificance.Thestudyanddevelopmentofbiddataplatformriserightunderthisbackground.ThebirthofHadoophasattractedattentionto thestudyofthecomputingmode一-MapReduce,whileSparksuitsthedataminingscenarioofbigdatabyintroducingRDDdatamodelandcomputingmodebasedonmemory.SparkperformsbeaerthanHadoopiniterativecomputationsandsoonbecomestheresearchpriorityofvastenterprisesandscholars.RecommendationsystemisanapplicationwhichfindsusefuIinforrnationfrommassi

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档