- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
社会网络与图匹配查询
20
专题 第?8?卷??第?4?期??2012?年?4?月
马 帅 曹 洋 沃天宇 怀进鹏
北京航空航天大学
社会网络与图匹配查询
背景
无线互联网和3G等新兴技术的发展为用户之
间通过各种社会网络,包括B B S论坛、在线社区
(如Facebook、人人网和开心网等)、微博(如
Twitter、新浪微博和腾讯微博等)进行交流带来了
便利,网民也越来越多。据中国互联网络信息中心
(CNNIC)发布的互联网络发展状况统计报告[1]显
示,截至2011年12月底,中国网民规模已达到5.13
亿人,社交网站使用率为47.6%,微博使用率由2010
年的13.8%猛涨至2011年的48.7%。
社会网络的飞速发展,对个人和社会群体的行
为产生了深远影响。以脸谱(Facebook)为例进行
分析,从中可以发现:(1)用户群规模大,全球
每13个人中就有1个人使用,并且超过一半的用户
每天都登陆Facebook;(2)使用频繁,年龄段在
10~34岁之间的用户有48%每天醒来(甚至有28%
的用户在起床前)就查看自己的账户信息;(3)
朋友圈较大,平均每个用户有130个朋友;(4)所
有用户每月在线时间达7000亿分钟;(5)48%的年
轻人通过Facebook获取新闻消息[2]。
在社会网络中,可以把用户看作为图的顶点,
用户之间的关系(如朋友关系)看作图的边。图的
相关理论和技术在社会网络中有着重要的应用,是
目前学术界和业界关注的热点之一。
国内外知名研究机构和公司对图的研究与应用
都非常重视。例如,微软研究院的Trinity项目[3]和用
于数据中心的“Querying Large Distributed Graphs”
项目[4];谷歌的大图处理系统Prege l[5]和MapRe-
关键词:社会网络 图匹配查询
duce[6];雅虎研究院的“Graph Partitioning”项目[7];
Neo4j公司的开源图数据库[8];美国加州大学圣巴巴
拉分校(University of California Santa Barbara)的
“Massive Graphs in Clusters”项目[9];英国爱丁堡大
学的模式匹配项目[10]以及北京航空航天大学和国内
各大院校的关于图的研究。
图匹配查询
图匹配查询指的是一种概念上非常广泛的图的
查询语言,在社交网络中有着广泛的应用。下面我
们首先给出一个简单的形式化定义。
图匹配:给定一个模式图(pattern graph)
和一个数据图(data graph) :
(1)判断 是否“匹配” ;或者
(2)从 中找出所有跟 “匹配”的子图。
注1:这里图是由顶点集和边集组合而成,而顶点
和边上通常会有标签标注相关信息。
注2:图匹配的定义包含了两类查询,第一类查询是
布尔查询,即需要回答“是”或者“否”的查询;
第二类查询返回结果时需要利用第一类查询,两
者之间有着紧密的关系。此外,模式图 通常比较
小,仅仅包含几个或者几十个顶点;而数据图 通
常较大,甚至包含以“亿”为数量级的顶点和边。
应用实例
下面通过社会关系查找、角色分析、推荐系统
和交通路线选择4个应用实例来进一步介绍图匹配
21
第?8?卷??第?4?期??2012?年?4?月
查询在社会网络中的应用情况。
实例一:社会关系查找
图匹配查询在社会关系查找中有着广泛的应用。
下面给出一个查询远房亲属关系的应用案例[18]。华人
社交网络记录了华人之间的社会关系,其中网络的
顶点是人,且顶点上带有属性值,用来记录人的姓
名;边是人与人之间的各种人际关系,且边上带有
属性值,用来记录所连接的两人之间的相应关系,
例如父子(女)、母子(女)、兄弟(妹)、姐弟
(妹)、上下级、师生关系等。
有几类常见的社会关系查询:(1)查找给定
的张三和李四两人是否是远房亲戚;(2)查找张
三和李四是不是三代以内的近亲;(3)查找张三
所有三代以内具有血缘关系的亲属;(4)查找并
输出所有与张三有三代以内血缘关系的亲戚且是张
三某个兄弟的老板。
事实上,上面所有查询都可用图模式匹配查
询中的可达性查询及其扩展 [18]来表达并找到结果。
总体来讲,查询(1)和(2)只需输出“是”或
“否”,查询(3)和(4)需要输出具体的数据
(即符合要求的人)。注意到如果张三和李四是具
有血缘关系的远房亲戚,则他们在网络中一定存在
一条路径(即可达的),并且连接他们的路径中所
有边的属性只可能是父子(女)、母子(女)、兄
弟(妹)、姐弟(妹)四种具有血缘联系的社会关
系。而对于判定三代以内的血亲关系,则可以通过
限制关系网络中连接两人的符合边属性约束的路径
长度来(即需要通过不超过三“跳”的路径
连接张三和李四)实现。因此,以上4种查
询应用都可以
文档评论(0)