社交网络数据采集算法的设计(软件工程课程设计)概念.docx

下载文档 降价啦

5
0
约1.2万字
约 27页
2017-09-08 发布于湖北
举报
版权申诉
保障服务

社交网络数据采集算法的设计(软件工程课程设计)概念.docx

1、本文档共27页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

软件工程课程设计社交网络数据收集算法的设计组号第21组组长姓名：盖云东学号：130104010049组员姓名：任志成学号：130104010121组员姓名：马剑楠学号：130104010004组员姓名：陈海涛学号：130104010045摘要随着互联网的发展，人们正处于一个信息爆炸的时代。社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。一些社交平台如Twitter、新浪微博、人人网等,允许用户申请平台数据的采集权限,并提供了相应的API 接口采集数据,通过注册社交平台、申请API授权、调用API 方法等流程获取社交信息数据。但社交平台采集权限的申请比较严格,申请成功后对于数据的采集也有限制。因此,本文采用网络爬虫的方式,利用社交账户模拟登录社交平台,访问社交平台的网页信息,并在爬虫任务执行完毕后,及时返回任务执行结果。相比于过去的信息匮乏，面对现阶段海量的信息数据，对信息的筛选和过滤成为了衡量一个系统好坏的重要指标。本文运用了爬虫和协同过滤算法对网络社交数据进行收集。关键词：软件工程；社交网络；爬虫；协同过滤算法目录摘要- 2 -目录- 3 -课题研究的目的- 1 -1.1课题研究背景- 1 -2 优先抓取策略Rank- 2 -2.1 PageRank简介- 2 -2.2 PageRank流程- 2 -3 爬虫- 4 -3.1 爬虫介绍- 4 -3.1.1爬虫简介- 4 -3.1.2 工作流程- 4 -3.1.3 抓取策略介绍- 5 -3.2 工具介绍- 6 -3.2.1 Eclipse- 7 -3.2.2 Python语言- 7 -3.2.3 BeautifulSoup- 7 -3.3 实现- 8 -3.4 运行结果- 9 -4 算法部分- 10 -4.1获取数据的三种途径- 10 -4.1.1通过新浪微博模拟登录获取数据- 10 -4.1.2 通过调用微博API接口获取用户微博数据- 11 -4.2基于用户的协同过滤算法- 14 -4.2.1集体智慧和协同过滤- 14 -4.2.2深入协同过滤核心- 15 -4.3算法实现- 18 -结论- 22 -参考文献- 23 -课题研究的目的课题研究背景互联网导致一种全新的人类社会组织和生存模式悄然走进我们，构建了一个超越地球空问之上的、巨大的群体——网络群体，21世纪的人类社会正在逐渐浮现出崭新的形态与特质，网络全球化时代的个人正在聚合为新的社会群体。随着社交网站的兴起，网络社交蓬勃发展，新的互联网热再次升温，有分析人士甚至说，网络社交将缔造人际交往的新模式。互联网的兴起打破了传统的社会交往方式,简单、快捷和无距离的社交体验推动社交网络快速发展,以Facebook、Twitter、微博等为代表的应用吸引了大量活跃网络用户,社交网络信息呈现爆发式的增长。社交网络信息反映了用户的网络行为特征,通过对这些信息的研究,可以实现社会舆论监控、网络营销、股市预测等。社交网络信息的重要价值在于实时性,如何快速、准确、有效地获取目标信息非常重要。但社交网络属于Deep Web 的专有网络,信息量大、主题性强,传统有哪些信誉好的足球投注网站引擎无法索引这些Deep Web 页面,只有通过网站提供的查询接口或登录网站才能访问其信息,这增加了获取社交网络信息的难度。目前国外有关社交网络数据采集模型的研究较少,对社交网络的研究主要集中在社会网络分析领域。国内社交网络平台的数据采集技术研究有一定成果,如文献提出并实现一种利用新浪微博应用程序接口(Application Programming Interface,API)和网络数据流相结合的方式采集数据,文献利用人人网开发平台提供的API 实现数据采集,并通过WebBrowser和HttpFox监测信息交互时的数据包,实现动态获取Ajax 页面信息等。2优先抓取策略Rank2.1 PageRank简介PageRank，即网页排名，又称网页级别、Google左侧排名或佩奇排名是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的有哪些信誉好的足球投注网站系统原型时提出的链接分析算法，自从Google在商业上获得空前的成功后，该算法也成为其他有哪些信誉好的足球投注网站引擎和学术界十分关注的计算模型。目前很多重要的链接分析算法都是在PageRank算法基础上衍生出来的。2.2 PageRank流程首先PageRank的计算充分利用了两个假设：数量假设和质量假设。步骤如下：1) 在初始阶段：网页通过链接关系构建起Web图，每个页面设置相同的PageRank值，通过若干轮的计算，会得到每个页面所获得的最终PageRank值。随着每一轮的计算进行，网页当前的PageRank值会不断得到更新。2)在一轮中更新页面PageRank得分的计算方法：在一轮更新页面PageRank得分的计算中