- 1、本文档共63页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
新浪微博的数据集和推荐方案研究
硕士论文 新浪微博的数据采集和推荐方案研究
摘要
新浪微博作为一种新型的社交应用平台,经过多年的发展,已经成为社交应用的
主流。随着“信息爆炸”时代的到来,人们不可能关注所有的微博信息,推荐系统可
以发现用户兴趣,针对用户进行个性化推荐。传统的微博推荐系统主要从社交网络的
拓扑结构和用户注册信息的方向来考虑,生成相应推荐结果。通常这样给出的结果与
用户的兴趣相似度不高。本文主要从用户兴趣的角度出发,分析用户自身发表过的所
有微博记录来预测用户兴趣,并给出推荐结果。这样的推荐结果用户针对性更强,更
加能满足用户兴趣需求。
本文对微博推荐系统的实现过程进行了深入的研究,核心的工作主要分为三个部
分:第一部分是新浪微博的数据采集:通过新浪API和网络爬虫这两种方式采集新浪
微博的数据,把采集的结果数据作为训练模型的语料库,同时也作为推荐信息的基本
来源。第二部分主要对用户进行聚类操作,通过分析用户发表的所有微博,提炼出用
户主题模型,然后使用k.means算法对所有的用户主题模型进行聚类操作,把用户划
分成k类兴趣相似的用户簇。第三部分关于微博推荐列表生成:用户的所有主题词构
成一个用户主题向量,用基于word2vec的文本相似性度量算法计算该簇中其它用户
发表的微博与该用户主题向量之间的相似性,得到一个相似度列表。对相似度列表进
行排序,取出相似度值最大的N个值所对应的微博加入推荐列表,针对用户进行个
性化推荐。
统,该系统基本实现微博个性化推荐的功能。
word2vec,
关键词: 微博,数据采集,推荐系统,聚类, node.js
Abstract 硕士论文
Abstract
Asanewsocial of inrecent
applicationplatform,thedevelopmentMicroblogyears
moreandmorebetter.Scholarshavebeen researchon theera
doingin·depth microblog.In
ofinformation can’t attentiontoall inthemassive
explosion.Peoplepay microblog
Sorecommendation traditional
microblog. systemappeared.The microblog
recommendationthe of anduser’S
SNS informationto the
usingtopology registration give
recommendresult.buttheeffectisnot this user’S
verygood.In history
paper,Considering
to user’Sinterestto therecommendresult.Theresult
microblog.Accordingpredict
文档评论(0)