- 1、本文档共20页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
全国高校云计算应用创新大赛;;一.赛题描述
关联规则:最早应用于购物篮分析(Market Basket Analysis),用来揭示一组经常被 一起购买的商品,目前,成为一种简明且解释性极佳的推荐模型。
推荐精度:与基于奇异值分解的协同过滤的复杂模型相比,它难以获得与其相同的推荐精准度, 但是,关联规则推荐方法仍然具有很高的实用性。
应用举例:YouTube 使用关联规则推荐视频、淘宝和亚马逊网站上的“购买此商品的顾客也同时购买”及“经常一起购买的商品”等推荐方式也依托于关联规则构建。;频繁模式:它具有反单调性,一个频繁模式包含很多频繁子模式,而一个频繁模式也能导出多个关联规则,因此,关联规则数量巨大。
计算效率:电子商务网站的用户并发访问量非常高:淘宝并发在线用户通常高达千万,因此,大量在线用户有哪些信誉好的足球投注网站候选规则的计算效率已成为制约利用关联规则进行推荐能否达到实用的瓶颈问题。
赛题目的:目前,关联规则的研究大多聚焦在推荐的准确性上,本赛题的目的就是唤起对关联规则推荐的可扩展性(Scalability)问题的重视,响应大数据时代的挑 战,增强关联规则推荐的实用性。 ;二、赛题关联规则算法
赛题焦点:本赛题的焦点是不关注推荐的准确率。因此,选择一种最简明易懂的推荐分值计算方案,即:最高置信度(confidence)作为候选项分值,利用其它指标或多个指标作为候选项推荐分值依据。本赛题所设计的高效关联规则框架应能够轻松地扩展至其他不同的关联规则推荐方法。
赛题假设:
A 频繁模式挖掘:设给定购物篮数据集(Market-Basket Database) D,利用 Apriori、FP-growth 或其他同功能算法可挖掘到在给定最小支持度阈值 min_supp 约束下的频繁; 模式集合 P={P1, P2,…, 第四届全国高校云计算应用创新大
赛技能赛赛题一 Ps}。注意:这步将列入考核步骤,(1)
给定 min_supp 后频繁模式集合 P 的准确性(是否遗漏或
多余);(2) 挖掘的时间算作完成关联推荐的一 部分。
B 关联规则生成:面对推荐需求,假设关联规则的后项仅
包含 1 个项目(即作为候选推荐项),而关联规则前项
包含该频繁模式剩余所有项???。不失一般性,设任意频
繁模式 Pj={ij1,ij2,…,ij|Pj|},|Pj|为模式 j 包含的项目数量,
则 Pj 可生成|Pj|条关联规则:Rjk:Ajk→ijk,1≤k≤|Pj|,
Ajk=Pj/{ijk}。
C 关联规则匹配:给定等待推荐的用户概貌(User Profile)集; 合 U,其中每个用户概貌为项 目的集合,设为 Tu,一条
关联规则 Rjk 能为 Tu产生候选项,需满足:(1) 规则前项
Ajk 被 Tu 包含;且(2)后项 ijk 不被 Tu包含。对 Tu 有用的关
联规则集合可形式化为:
Ru={Rk:Ak→ik|Ak?Tu,ik?Tu,Rk?R}。
D 推荐分值计算:每条 Ru 中的规则必会为 Tu 带来一个推荐
候选项 ik,ik 的推荐分值为所有以 ik 为后项规则的最大置
信度,最后将 Tu 所有推荐候选项以推荐分值由大至小排
序,取 Top-N 的项作为最终推荐列表。Rjk 置信度计算为:
conf(??????) = ????????(???? ) /????????(??????) (1)
其中,supp 表示支持度计数。;赛题任务:赛题给定购物篮数据集 D 和活跃用户数据集 U,编写 Spark 程序,以支持度阈值 min_supp=9.2%从数据集 D 中挖掘频繁模式(步骤 A),然后将关联规则与 数据集 U 中的用户概貌进行匹配并计算出每个用户的推荐项目(步骤 D)。为简单起见,赛题仅要求给出置信度最大的项(即 Top-1 项)作为推荐结果,如果置信度最大的项有多个,则给出编号最小的项作为结果。如果某用户没能产生推荐项(即没有关联规则与其概貌匹配),则以 0 作为结果。
数据集说明:购物篮数据集 D 中的每一行表示一个记录(或称之为事务,transaction),记 录中项目以空格分隔。;数据的规模如表 1 所示,整理过的数据集请至大赛官方 网站下载。 表 1 购物篮数据集 D 规模
活跃用户数据集 U 中每一行表
您可能关注的文档
- 修订日期-2016-1-11腾讯社交广告服务商准入流程和标准腾讯社交广告介绍-.docx
- 倍智2018届校园招聘简章企业介绍.docx
- 借壳上市的相关简介二零一七年三月1借壳上市的定义借壳上市相关法律法规借壳上市的标准.pptx
- 债券投资者权益保护手册前言.docx
- 债券投资者问答-基础制度篇.docx
- 债权项目推荐-上海意邦置业有限公司等3户债权资产.pptx
- 做优做强集团化办学助推经济转型升级上海嘉定职业教育集团.docx
- 做智慧幸福的教育人岳西县教师进修学校教研室段琼英.pptx
- 做最专业、最系统化的企业全员培训平台-聚成华企在线商学院.ppt
- 健康管理软件使用需求.doc
- 中国国家标准 GB/T 18233.4-2024信息技术 用户建筑群通用布缆 第4部分:住宅.pdf
- GB/T 18233.4-2024信息技术 用户建筑群通用布缆 第4部分:住宅.pdf
- GB/T 18978.210-2024人-系统交互工效学 第210部分:以人为中心的交互系统设计.pdf
- 《GB/T 18978.210-2024人-系统交互工效学 第210部分:以人为中心的交互系统设计》.pdf
- 中国国家标准 GB/T 18978.210-2024人-系统交互工效学 第210部分:以人为中心的交互系统设计.pdf
- GB/T 16649.2-2024识别卡 集成电路卡 第2部分:带触点的卡 触点的尺寸和位置.pdf
- 《GB/T 16649.2-2024识别卡 集成电路卡 第2部分:带触点的卡 触点的尺寸和位置》.pdf
- 中国国家标准 GB/T 16649.2-2024识别卡 集成电路卡 第2部分:带触点的卡 触点的尺寸和位置.pdf
- GB/T 17889.4-2024梯子 第4部分:铰链梯.pdf
- 《GB/T 17889.4-2024梯子 第4部分:铰链梯》.pdf
最近下载
- 企业存货管理问题研究——以森马服饰为例.doc
- 2012年数学建模竞赛答案之一 葡萄酒.pdf VIP
- 手机游戏的营销策略分析以《明日方舟》为例.docx VIP
- 急诊POCT专项测试卷附答案.doc
- 2023年全国数学建模竞赛D题的答案.doc VIP
- 100m3每天医疗污水处理方案.docx VIP
- PreSonus 普瑞声纳 Temblor T10EN,CN T10 OwnersManual 04272021说明书用户手册.pdf
- 2021年全国数学建模竞赛D题的答案.pdf VIP
- PreSonus 普瑞声纳 Eris E44EN,CN Eris E44 and E66 OwnersManual EN V3 01112021.说明书用户手册.pdf
- 2003全国大学生数学建模竞赛b题参考答案.docx
文档评论(0)