- 1、本文档共61页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
基于Neo4j图数据库的社交网络数据的研究与应用
摘要
社交网络作为其中一种新兴的、实用的交友模式,得到了广大用户的青睐,
在网络活动中发挥着越来越重要的作用。由于社交网络使用的频度高、人数众多,
产生了海量的数据。传统的关系型数据库在海量的社交网络数据面前,不能很好
发挥出优势,表现在计算复杂网络基本参数上反应慢,效率低。本课题的主要目
的是研究如何利用数据存储、查询新技术,如图数据库,来分析社交网络数据,
提升数据分析的效率。本课题针对当今世界的社交网络分析的主要问题与挑战,
对社交网络的一些统计特性参数进行探究,具有一定的程度的挑战性。
本文首先对社交网络的概念以及国内外的发展现状进行了详细的综述,对相
关的Neo4j图数据库处理引擎、存储结构、访问模式以及Cypher查询语言进行了
详细的介绍。然后在深入研究Neo4j图数据库的基础上,重点分析了Neo4j图数
据库目前所采用的多维索引,并且针对多维索引存在数据量很大时查询效率低下
的问题,提出了将SKIPLIST跳跃表索引运用Neo4j图数据库中的方法,以提
高Neo4j图数据库查询的效率。Neo4j图数据多维索引是在节点或者关系的属性
上加上索引,节点或者关系的存储结构均是单链表结构,检索时按照链表顺序进
行遍历。当数据量很大的时候,索引查询效率就开始衰退。而SKIPLIST跳跃表
索引则针对Neo4j图数据库的节点或者关系的单链表存储结构改进为分层的链表
索引结构,相当于二分查找,这就较大地缩短了检索的时间,在较大程度上提高
了检索的效率。而后结合社交网络中的一些具有代表性意义的统计特征进行分析
研究,比如度分布、平均路径长度、密度等信息,给出了Cypher查询语言,并给
出了实现的代码。
最后以抓取的新浪微博的数据为数据集,进行改进后的Neo4j图数据库的
SKIPLIST跳跃表索引与未做改进的多维索引做统计特性分析,从中可以看出,
与原有的多维索引相比,改进后的Neo4j图数据库的SKIPLIST跳跃表索引在社
交网络分析上具有较大的优势,语言查询简单分析效率高,适合于社交网络数据
分析。
关键词:社交网络分析;Neo4j;SKIPLIST;多维索引;Cypher
工程硕士学位论文
Abstract
Asoneofthenew,practicaldatingmode,socialnetworhasattractedmajority
ofusersofallages,andisplayinganincreasinglyimportantroleinthenetwor
activity.Sincesocialnetworisfrequentlyused,andinvolvesmanypeople,it
generatesmassiveamountsofdata.Traditionalrelationaldatabasecannothandle
massivedataofsocialnetworwell;ithaspoorperformanceofcomplexnetwor
computingthebasicparameters.Themainpurposeofthispaperistostudyhowtouse
thenewdatastoragetechnology,graphicdatabase,toimproveefficiencyofdata
analysisofsocialnetwordata.Thispapertakesthechallengesoftodaysworldof
socialnetworanalysis,toexploresomestatisticalparametersofsocialnetwors,
withacertaindegreeofchallenge.
文档评论(0)