- 1、本文档共31页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
六度分离在社交网络中的验证
网络科学与策略机制
贾溢豪 黄昱恺 李丽珊
何林 张婷
Group 2
Part 1
六度分离理论背景
方案论述
数据获取
Gephi数据处理
六度分离理论验证
Part 2
Part 3
Part 4
Part 5
化
Part 1
六度分离 理论背景
六度分隔(Six Degrees of Separation)
哈佛大学社会心理学教授Stanley Milgram
连锁信件实验
任意两个人都可通过平均6个熟人联系起来
“六度分割”在互联网中极具商业价值
Blog、Facebook、LinkedIN
信息时代对人类社会的再一次理解与探索
Part 1
六度分离理论背景
方案论述
数据获取
Gephi数据处理
六度分离理论验证
Part 2
Part 3
Part 4
Part 5
化
Part 2
方案论述
中国较为主流的网络社交窗口
微博、人人、空间、朋友圈
Step 1. 捕获任意用户好友关系数据【150】
Python语言编写网页爬虫
Step 2. 绘制好友关系连接图【10w】
导入Gephi绘制
Step 3. 统计数据,计算节点间平均跳数
Gephi、Excel统计
化
Part 2
方案论述
核心统计参数
度:
节点做连接的边数,即指定用户的所拥有的好友数。
离心率:
从一个给定起始节点到距其最远节点的距离。
紧密中心数:
从一个给定起始节点到其他所有节点的平均距离。
中介中心数:
度量一个节点在网络中最短路径上出现的频率。
Part 1
六度分离理论背景
方案论述
数据获取
Gephi数据处理
六度分离理论验证
Part 2
Part 3
Part 4
Part 5
化
Part 3
数据获取
利用python Httplib2模块伪装浏览器,构造查询好友列表URL,发送HTTP请求给人人网,然后利用正则表达式解析服务器端返回的HTML文档,提取用户的好友信息
Python程序核心思路
化
Part 3
数据获取
化
Part 3
数据获取
repo_mysql.py
用于将解析过的好友列表和用户信息保存到mysql服务器中,提供了一些基本的好友数据的查询,插入,更新等接口函数
spider.py
以起始点用户的登陆cookie作为输入,遍历查询该用户的好友列表信息,并对每个好友,递归查询对应的好友列表信息,每次会从MySQL数据库中查询该用户的好友列表是否已经被检索过,从而提供了断开重连继续爬取的功能,从而形成一个好友网络查询顺序。
核心模块介绍
化
Part 3
数据获取
repo_mysql.py
用于将解析过的好友列表和用户信息保存到mysql服务器中,提供了一些基本的好友数据的查询,插入,更新等接口函数
spider.py
以起始点用户的登陆cookie作为输入,遍历查询该用户的好友列表信息,并对每个好友,递归查询对应的好友列表信息,每次会从MySQL数据库中查询该用户的好友列表是否已经被检索过,从而提供了断开重连继续爬取的功能,从而形成一个好友网络查询顺序。
化
Part 3
数据获取
downloader.py
该模块为好友数据爬虫的核心模块,提供了伪装浏览器发送请求和利用正则表达式解析返回信息的函数实现,传入参数为用户的cookie信息,用户添加在报文头中发送请求.
i.浏览器报文头
为了尽可能的避免爬虫程序被人人网服务器端检测并屏蔽掉,爬虫模块一方面可以通过随机时间休眠,另一方面可随机的替换报文头伪装不同的浏览器发送请求
化
Part 3
数据获取
ii.发送HTTP请求模块
该函数接口传入参数url 模式,item模式(用户信息),pageRange(可能好友列表有多页,需要多次请求获取),resend(超时重新发送请求最多次数),该模块发送url模式的请求,然后解析返回的HTML的item pattern来解析好友列表和用户配置信息
化
Part 3
数据获取
iii.利用正则表达式解析HTML示例
好友列表或者状态信息都会构造一个URL pattern和需要解析的数据pattern传递给ii. 中的方法调用,图4给出爬取和解析好友列表的url pattern和item pattern。
化
Part 3
数据获取
选取150位用户为初始节点
通过人工挑选的方式选出具有代表性的用户作为爬虫的起始节点,组内5人每人挑选30人,共挑选150名人人网用户,随机挑选尽可能使用户不相关,并记录他们的人人ID
2. 登陆人人获取cookie
用任意浏览器登陆人人,并保存登陆后的cookie用作之后的爬取。
工作流程
Part 1
六度分离理论背景
方案论述
数据获取
Gephi数据处理
六度分离理论
文档评论(0)