- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
干货|微信 230 万社群生命周期研究
最近读了一篇 arXiv 上的文章,是清华大学和腾讯公司的一批人运用微信群组数据做的研究。刚好,
我目前对社群这块兴趣异常浓厚,所以就认真读了一下这篇文章,于是做笔记如下。先说说我看到
的这篇文章的亮点吧:
0 、文章基本信息
作者: Jiezhong Qiu?, Yixuan Li?, Jie Tang?, Z heng Lu?, Hao Ye?, Bo Chen?, Qiang Yang ? , and
John E. Hopcroft?
单位: ?Department of Computer Science and Technology, Tsinghua University ?Department of
Computer Science, Cornell University?Tencent Corporation, Beijing, China. ? Department of
Computer Science, Hong Kong University of Science and Technology
标题: T he Lifecycle and Cascade of Social Messaging Groups
下载地址: /abs/1512.07831
好,下面我想详细叙述一下这篇文章的几个有意思的地方
1、数据集
首先,关于数据(没办法,现在数据在研究中的作用太重要了)
作者用了微信的群组记录,从 15 年7月 26 日到8 月 28 的34 天数据,包括 230 万个群。数据内容包括:
群组活动(谁在什么时间在什么群组活跃)、用户的集合、邀请记录(谁于什么时刻邀请了谁加
入群),以及朋友关系数据(谁和谁在什么时刻成为好友)
2 、群组的两类生命周期
微信群按照功能和时间长短可以分为两种:基于事件建立的临时群,和基于组织和长期社会关系建
立的长期群,这在群的生命活跃时间长度分布上体现得很明显,如下图所示:
我们看到,临时群组的生命周期大概不会超过 5 天,而长期的群组会在一个月以上。
3 、群结构特征的演化
接下来,作者主要研究了群的结构。所谓的结构,就是指群内成员之间由好友关系构成的社会关系
网络。如下图所示:
如图 (a) ,这是一个群内的社交网络。作者主要用了两个指标来度量群的结构,一个是开放三角形的
比例,所谓的开放三角形就是形如图( a )中ADC 这三个节点形成的局域结构;另一个是封闭三角
形的比例,如图中的 ABC ;还有就是连边的密度,就是连变数除以 C_n^2 ,即这些点全联通时候的
连边数。
然后,作者看这三个指标的演化。也很简单,它首先在起始点计算了这些指标,然后在一月后再计
算这些指标,得到 b 、c 、d这三张图。然后分别就长期和短期(蓝色和绿色)的结构指标进行了
比较。假如结构没有变化,那么曲线会落到斜 45 度对角线上。现在看来长期群相对于短期来说变化
是更大的。说明长期群更受这些结构因素影响。
4 、邀请层次树
由于微信的邀请好友机制是任意群组中的人员都能邀请。这样,从第一个建群的人开始,他就可以
邀请其他人,然后这些入群后的人又可以邀请 …… ,这就构成了一个级联性的树状结构。比较长期
群和短期群,它们的树状深度是不一样的,如下图:
长期群结构更深,短期群更扁平。
在这个树中,节点是人,连边是邀请关系。我们可以用一种叫做 “结构病毒性 ”(Structural virality
)也叫 Wiener 指数 的指标来刻画这个树的形状。 Wiener 指数定义为平均任意两个节点的距离。它越
大说明树越深长。在此,我想到了树的异俗标度律指标也能计算这个玩意,参见
/index.php/%E6%A0%91%E7%9A%84%E5%BC%82%E9%80%9F%E6%A0%87%E5%BA%A6%E5%BE%8B
5 、生命周期预测
接下来,作者尝试用群组的静态特征,包括结构特征(局域网络结构)、成员的人口特征(如性别
、年龄等)来对群组的寿命进行预测。基本套路是把一部分群数据作为训练集,运用 SVM (支持向
量机)来进行预测,但预测不是重点,重点看精度。结果发现,结构特征起的作用最大。预测准确
度能在 60% 以上。而且我们甚至只用 1天
您可能关注的文档
- 干货!小技巧帮你完成创意十足的网页设计.pdf
- 干货:BAT都是怎么玩大数据的.pdf
- 干货:O2O未来将是一个聚合大平台.pdf
- 干货:关于购物中心的十个为什么,你知道多少个?.pdf
- 干货:关于响应式布局.pdf
- 干货:互联网硬件求胜七锦囊.pdf
- 干货:屏幕分辨率那些事儿.pdf
- 干货:手机游戏六大渠道评测标准大合集.pdf
- 干货:提升社交媒体互动效果的5大策略【案例】.pdf
- 干货:移动分发那些事.pdf
- 2025届衡阳市第八中学高三一诊考试物理试卷含解析.doc
- 2025届湖南省娄底市双峰一中等五校重点中学高三第二次诊断性检测物理试卷含解析.doc
- 天水市第一中学2025届高三第二次联考物理试卷含解析.doc
- 2025届金华市重点中学高三考前热身物理试卷含解析.doc
- 2025届北京市石景山区第九中学高三第四次模拟考试物理试卷含解析.doc
- 江苏扬州市2025届高三第一次模拟考试物理试卷含解析.doc
- 2025届江苏省南通市高级中学高考物理五模试卷含解析.doc
- 广东省清远市华侨中学2025届高三第一次调研测试物理试卷含解析.doc
- 辽宁省凤城市2025届高三第五次模拟考试物理试卷含解析.doc
- 内蒙古巴彦淖尔市重点中学2025届高考仿真卷物理试卷含解析.doc
文档评论(0)