- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
LinkedIn 职业网络中的数据挖掘应用.doc
LinkedIn 职业网络中的数据挖掘应用
摘要:近年来,社交网络发展迅速,各种社交的网络平台每天都会产生海量的用户数据。这些无序的数据中隐藏着潜在的价值,也为研究者提供了用数据挖掘中的方法来分析这些数据的机会。聚类是数据挖掘中的一个基本技术,而利用聚类方法我们能够实现LinkedIn职业网络中的数据挖掘。
关键词:社交网络;数据挖掘;应用;聚类;LinkedIn职业网络
中图分类号:TP301 文献标识码:A 文章编号:1009-3044(2016)13-0001-02
Abstract:In recent years, with the rapid development of social network, the different social networking sites produce large amounts of user data every day. There is potential value in these disordered data. It also provides researchers with opportunity of using data mining methods to analyze these data. Clustering is an essential data mining techniques, and we can achieve data mining in LinkedIn professional network with the use of clustering method.
Key words: social network; data mining; application; clustering; linkedin professional network
社交网络,顾名思义是用于社交的网络平台,它最初是以交友为开端的,在社会的不断发展中逐渐演变成了今天的集社交、通讯、娱乐、商业等元素为一体的多元化平台。基于网络的社会交往诞生于早期的基于终端的计算机,以及通过新闻组或其他早期的互联网软件来进行。社交网络的新时代开始于互联网的性能的上升,以及万维网(Web)的逐渐占据主导地位。
近年来,国内的新浪微博、人人网,国外的Facebook、Twitter和LinkedIn等社交网站,也已经从时尚变为主流。而社交网络的爆发之所以能在最近几年爆发,很大程度上是由于社交网络和媒体共享网站提供了大量的用户数据。而如何对这些海量数据进行高效的分析和处理,也决定了社交网络今后的发展。
1 社交网络数据分析概述
网络和信息技术的飞速发展使得社交网络成为人们生活中不可缺少的一部分。网络设计采用电子邮件作为一个起点,而不是实际生活中的信件。然后开心网,BBS等网站,是由它演变,并且以虚拟为其主要特色。在社交网络演进的过程中,个人的形象由实际生活中的具体个人转化为一个虚拟形象。所有的这一切都归功于社交网络的诞生,然后又驱使人们提出网络扩展和降低成本的特征之间的联系。良好的社交网络数据分析技术可以在社交网络的爆炸式发展的过程中为用户们创建一个积极乐观的网络环境和氛围。
流行的社交网络如今被认为是社交加网络,即通过将网络作为载体,将很多的用户连接以形成具有一定特性的虚拟社区。和基础科学不同,对社交网络的数据分析重点是人与人之间的相互联系[1],而不仅仅是独立个体的属性。社交网络分析就是研究这种社会结构的,它主要检查关系之间的结构和组成,并分析其结构特点[2]。通常包括:
1)个体的邻接点之间是如何连接的;
2)彼此之间经常进行通信的个体[3](社区);
3)通过网络传递信息所涉及的个体数[4](路径长度);
4)实际网络中可能存在的关系的比重[5](密度)。
2 数据挖掘在社交网络中的具体应用――LinkedIn中的职业网络聚类
2.1 LinkedIn中数据挖掘的意义
LinkedIn是全球最大的职业社交网站,它主要关注用户的职业和相互之间的商业关系,即“人脉”。LinkedIn的理想定位为年轻职业人员,被广泛地用于构建和维护外部职业网络。因为LinkedIn的管理团队认为用户的职业数据本质上是私有的,并且这些数据非常宝贵,不能像Facebook或Twitte上的好友那样任意查看。由于这类数据的敏感性,LinkedIn中API提供的数据和一般社交网站是有本质区别的[6]。LinkedIn限制用户访问自己“一度人脉”的某些信息,因此它不适用于作为图挖掘。本章下面的内容将介绍如何用基本的聚类分析来帮助用户找到以下几个问题的答案:
1)你的哪些“人脉”和
文档评论(0)