网站大量收购闲置独家精品文档,联系QQ:2885784924

干货|微信230万社群生命周期研究.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
干货|微信 230 万社群生命周期研究 最近读了一篇 arXiv 上的文章,是清华大学和腾讯公司的一批人运用微信群组数据做的研究。刚好, 我目前对社群这块兴趣异常浓厚,所以就认真读了一下这篇文章,于是做笔记如下。先说说我看到 的这篇文章的亮点吧: 0 、文章基本信息 作者: Jiezhong Qiu?, Yixuan Li?, Jie Tang?, Z heng Lu?, Hao Ye?, Bo Chen?, Qiang Yang ? , and John E. Hopcroft? 单位: ?Department of Computer Science and Technology, Tsinghua University ?Department of Computer Science, Cornell University?Tencent Corporation, Beijing, China. ? Department of Computer Science, Hong Kong University of Science and Technology 标题: T he Lifecycle and Cascade of Social Messaging Groups 下载地址: /abs/1512.07831 好,下面我想详细叙述一下这篇文章的几个有意思的地方 1、数据集 首先,关于数据(没办法,现在数据在研究中的作用太重要了) 作者用了微信的群组记录,从 15 年7月 26 日到8 月 28 的34 天数据,包括 230 万个群。数据内容包括: 群组活动(谁在什么时间在什么群组活跃)、用户的集合、邀请记录(谁于什么时刻邀请了谁加 入群),以及朋友关系数据(谁和谁在什么时刻成为好友) 2 、群组的两类生命周期 微信群按照功能和时间长短可以分为两种:基于事件建立的临时群,和基于组织和长期社会关系建 立的长期群,这在群的生命活跃时间长度分布上体现得很明显,如下图所示: 我们看到,临时群组的生命周期大概不会超过 5 天,而长期的群组会在一个月以上。 3 、群结构特征的演化 接下来,作者主要研究了群的结构。所谓的结构,就是指群内成员之间由好友关系构成的社会关系 网络。如下图所示: 如图 (a) ,这是一个群内的社交网络。作者主要用了两个指标来度量群的结构,一个是开放三角形的 比例,所谓的开放三角形就是形如图( a )中ADC 这三个节点形成的局域结构;另一个是封闭三角 形的比例,如图中的 ABC ;还有就是连边的密度,就是连变数除以 C_n^2 ,即这些点全联通时候的 连边数。 然后,作者看这三个指标的演化。也很简单,它首先在起始点计算了这些指标,然后在一月后再计 算这些指标,得到 b 、c 、d这三张图。然后分别就长期和短期(蓝色和绿色)的结构指标进行了 比较。假如结构没有变化,那么曲线会落到斜 45 度对角线上。现在看来长期群相对于短期来说变化 是更大的。说明长期群更受这些结构因素影响。 4 、邀请层次树 由于微信的邀请好友机制是任意群组中的人员都能邀请。这样,从第一个建群的人开始,他就可以 邀请其他人,然后这些入群后的人又可以邀请 …… ,这就构成了一个级联性的树状结构。比较长期 群和短期群,它们的树状深度是不一样的,如下图: 长期群结构更深,短期群更扁平。 在这个树中,节点是人,连边是邀请关系。我们可以用一种叫做 “结构病毒性 ”(Structural virality )也叫 Wiener 指数 的指标来刻画这个树的形状。 Wiener 指数定义为平均任意两个节点的距离。它越 大说明树越深长。在此,我想到了树的异俗标度律指标也能计算这个玩意,参见 /index.php/%E6%A0%91%E7%9A%84%E5%BC%82%E9%80%9F%E6%A0%87%E5%BA%A6%E5%BE%8B 5 、生命周期预测 接下来,作者尝试用群组的静态特征,包括结构特征(局域网络结构)、成员的人口特征(如性别 、年龄等)来对群组的寿命进行预测。基本套路是把一部分群数据作为训练集,运用 SVM (支持向 量机)来进行预测,但预测不是重点,重点看精度。结果发现,结构特征起的作用最大。预测准确 度能在 60% 以上。而且我们甚至只用 1天

文档评论(0)

tianya189 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体阳新县融易互联网技术工作室
IP属地湖北
统一社会信用代码/组织机构代码
92420222MA4ELHM75D

1亿VIP精品文档

相关文档