我从腾讯那“偷 了”3000万QQ用户数据,出了份很有趣的独家报告!.pdf

我从腾讯那“偷 了”3000万QQ用户数据,出了份很有趣的独家报告!.pdf

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
我从腾讯那“偷 了”3000万QQ用户数据,出了份很有趣的独家报告!

我从腾讯那“偷 了”3000万QQ用户数据 ,出了份很有趣的独家报告 ! 两周前 ,做的一个项 需要模拟一批用户评价数据 ,如果想让数据看着真实点 ,那就得使用随机的 用户昵称和头像啊。要是头像或者昵称全都差不多 ,那别人一看就看出来这是做的数据了。 于是乎我就写了个从我Q Q空间开始的蜘蛛网式的爬虫程序 ,程序断断续续的运行了两周。总共爬 到了腾讯3000万Q Q数据 ,其中有300万包含用户 (Q Q号 ,昵称 ,空间名称 ,会员级别 ,头像 ,最 新一条说说内容 ,必威体育精装版说说的发表时间 ,空间简介 ,性别 ,生日 ,所在省份 ,城市 ,婚姻状况 )的 详细数据。 前已经爬到我的第7圈好友 (dept h=7 )共3000万数据 , 前的瓶颈在家里的网速和电脑的配 置上。 最快的时候爬取速度达到一天500W新Q数据。 没图 ,我说个毛线啊 ! 前数据量为2G左右。 再看看 ,我根据这份数据生成的一些有趣的统计图 (数据量太大了一次加载到内存中直接报内存不 够了 ,所以下面的统计数据只取了dept h值小数据较完整约80W的数据 ): 内存已经爆了 ,不能怪我。 谁赞助台服务器吧~~ 大家一般都在啥时候发说说呢 ? 从图中看出一天最冷门的时候是凌晨4点 ,这时全国正在睡觉的人最多。 大家最亢奋的是晚上10点 到11点 ,人们都喜欢睡前看看别人的空间 ,发条说说。中午12点左右也有一波小高峰 一会我再统计张中国人习惯几点起床 ,几点吃饭 ,几点睡觉的图吧 中国人都喜欢在几月生小孩呢 ? 最热门的是1月份和10月份 ,最冷门的是4 月份。10月份生小孩的多好理解 ,一年忙差不多了 ,天气 也不冷不热正是生小孩的好时候。 但1月份最高且和2月落差很大有点不好理解 ,那么冷的天生不怕 冻吗 ? 我估计是1月份也快过年了 ,以前没聚一起的好不容易聚一起了 ,就容易冲动 ,冲动就啪 啪啪。 4 月份生日的最少也好理解 ,中国人不喜欢4这个数字呗。 大数据有意思吧 !! 我觉得太好 玩了 ,后面还有很多呢。 这是我 前爬取的用户所在地分布 你能猜出我是哪的了吗 ?前四名分别为 :广东 ,湖南 ,四川 ,江苏。 没错 ,我就是湖南的 ! 湖南人 在广东打工的超级多 ,这也能理解为什么广东排名第一了。江苏是我上学的地方 ,有点琢磨不透的 是四川和我非情非故的居然排第3名 ,我的朋友们 ,你们是谁播的种 ?站出来 ! 还有一种可能 ,四 川人交际能力全国第一 ,我平时在重庆小面吃饭 ,四川人确实特别 ,说话语速那个快啊 ,声调那个 高啊。受不了 ! 数据人群的年龄分布 一不小心就暴漏了我的年龄 ,没错。我就是那个最高值的1990年 ;从 前的数据来看 ,无论是分布 地区以及年龄阶段与我的关联还非常大 ,随着数据量的不断增加这种关联会逐渐变小 ,统计图也会 逐渐接近全国用户的真实情况。真想弄几台服务器分布式搞起 ,估计一周就能爬上亿的简单数据。 单靠我的笔记本和家里超烂的网速达到这个 标还很远。 数据人群性别分布 男比女足足多了23%的人数 ,我分析认为实际差距应该是不大的 ,但女生在设置Q Q空间访问权限 时普遍要比男生的高。所以我爬取的数据中男生居多。 下面系列图是根据一些“关键字”在说说中出现的频率统计出来的 ,相当有意思。 图说股市 在知乎“能利用爬虫技术做到哪些很酷很有趣很有用的事情 ?” 有一个google实习的哥们@Emily 爬 了4 00亿条tweet 也做了很多有趣的分 ,其中提到一篇关于利用tw it t er上人的心情来预测股市的论 文()很有意思。另附我在该问题下的答案“用爬虫监测她 (他 )的知乎动态” ,仅做技术玩乐 ,求别再 喷我猥琐了。 如果当我们拥有海量的Q Q空间必威体育精装版说说 ,和sina微博数据。我想 ,用它们来做一些股市或者其它 方面的分析预测是可行的 ,准确度应该也是非常高的。我接下来可能会考虑去做这件有趣的事情。 将股票中的关键字做海量数据分析 ,比如会得出当日讨论股票排行榜。进而能得到海量讨论股票的 用户 ,再通过市场的实际反馈找出股票上涨及下跌的正相关因子 ,再对这些海量用户进行分析计算 得出最靠谱股票推荐大神排行榜。对这些用户分级 ,分优先度及抓取密度来拿数据。用这些数据分 析出哪些是靠谱的股票肯定靠谱。 群众讨论最多的明星排行榜 ,还是很靠谱的。 另附我抓的明星Q Q号吧 ,纯属娱乐 ,自辩真假。有些空间确实有很多生活私照。 张杰Q Q :4 19998 花千骨的赵丽颖Q Q :427794 谢娜Q Q :50074

文档评论(0)

ldj215322 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档