面向信息网络的社区分析.ppt

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* 两阶段模型的框架 Query Doc-1 Score Doc-2 Score Doc-3 Score … Doc-k Score … Document Score Expert-1 Score Expert-2 Score Expert-3 Score … Expert-4 Score … Expert Score Ranked List of Experts Stage 1 Stage 2 * 专家建模方法框架 Query Document Collection Candidate Experts Person Profile Documents Ranked List of Experts * 什么是专家? 内容相关度 和查询的相关程度 在现有方法中得到了深入的研究 社区权威度 在查询对应的领域内,专家的知名度、权威度等 利用网络中的社区关系,例如:邮件回复关系、文章引用关系、共同署名关系、共现关系 * 基于多关系权威度量的专家有哪些信誉好的足球投注网站模型 关系1:文档、专家间的互增强关系 关系2:文档、文档间的推荐关系 关系3:专家和专家的共现、推荐关系 多关系权威度量模型 * Comparison with other models Models MAP MRR Median run in Enterprise Track 2007 0.2468 0.5011 ExpertRun02 0.3689 0.5142 THUIRMPDD4 0.4632 - Relation-based model 0.4385 0.5658 Hybrid model 0.5067 0.6698 * 50个查询上的结果 50%的查询上,MAP超过0.5 20%的查询上,MAP高达1.0 * 总结 社区分析是互联网服务的一个重要而又基础的问题 信息网络的社区分析有四类难解决的问题 多维关系度量、社区显著性度量、重叠社区发现、社区演化性分析 信息网络社区分析及其应用的初步实践 基于信息瓶颈的社区发现、层次化叠代社区结构分析、社区内重要人物发现、专家有哪些信誉好的足球投注网站 正在进行的工作:更符合实际价值、更能体现网络的功能表达稳定性、能够度量多维度关系的社区结构显著性评价模型及社区分析方法 * Thank you! * * * * * 使用两个随机变量示网络拓扑结构是指:拓扑是指节点的关系,每个边对应两个节点,一边用一个变量表示。 * 网络上,每个节点表示俱乐部的一个成员,边表示两者之间相互认识。 后来,由于俱乐部的教练和老板,分别为1和33发生了争执,俱乐部分裂为两个俱乐部,分别用不同形状的节点。 中间的竖线表示,基于信息瓶颈的社区发现得到的划分结果,节点3被误分,但是节点3和两边的连接个数都为5,容易误分。 * 二部图网络的例子: 是为了说明,二部图二部的节点相互影响构成社区,即喜欢汽车的各个个体和汽车一起构成一个社区。 有向网络的例子: 是为了说明,关注入边和出边得到的社区可能不同,从而说明有向网络的方向是不能忽略的,和别的方法相比,基于信息瓶颈的社区发现方法可以很好地处理这个问题。在给出的例子中,pipo,表明节点1-6,13-18更倾向于有边指向1-12,而节点7-12,19-24更倾向于有边指向13-24。对于这样一个有24个顶点的网络,考虑出边,得到的社区是(1-12),(13-24);考虑入边特征,得到的社区是(1-6,13-18),(7-12,19-24)。如果忽略方向性,该网络不具有社区结构。 * 以无权无向图为例,选发现其中的clique,然后在clique的基础之上,进行合并。 好处: 一、clique是连接最紧密的模式,以它为基础可以避免Newman Fast算法的盲目合并。Newman Fast是贪婪合并策略。 二、由于clique之间允许有重叠,合并可以产生层次。因此,可以发现层次化的重叠社区结构。 * 左图是一个示意图,这个图可以分成四个社区,即每个圈一个社区,也可以分成三个社区,即每种颜色一个社区,图的下部节点全是绿色,认为是一个社区。 无论是三个社区,还是四个社区,都损失了一些信息。 最好的结果如右图,首先分成三个,然后,绿色的社区再分成两个。这样一个层次化的重叠社区结构才是最好的结果。 * 词联想网络。 是美国South Florida大学通过调查问卷得到的,调查时,给一个目标词,例如Friday,要求参与者给出一个他认为和这个词最近的词,这样两个词之间就有一条边。 图上给出的是包括day的四个社区,这四个社区从不同的侧面反映了day的语义。 * 图中,用红框标出的是核心成员。 * False Positive:非核心成员,但算法错误地把他判断为核心成员 True Negative:非核心成员,算法正确地把他

文档评论(0)

benzei244572 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档