- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
利用同义词环改进基于folksonomy用户分类
利用同义词环改进基于folksonomy用户分类
[摘要]在基于∫olksonomy标签进行用户分类研宄的基础上,针对基于原始标签用户分类的诸多不足,提出利用标签建立同义词环、根据同义词环进行用户分类的思想。并通过对flickr的实证研究,建立同义词环进行用户分类,改进分类结果。
[关键词]同义词环 ∫olksonomy标签用户分类
[分类号]G202 TP391
1、引言
当今互联网是一个注重互动的网络社区,用户角色由从前的被动转为主动,集信息发布者和接受者为一体。利用标签共享技术实现网络信息资源组织检索的Folksonomy数字资源系统应运而生,其中del.icio.us、Flickr比较具有代表性,都是通过用户标签对用户偏好进行研究分类和兴趣推送,能够为用户提供多渠道、全方位的信息。
目前国内外在folksonomy中对用户偏好研究及兴趣推送方面主要针对的是用户个性,基于标签对用户进行分类方面的定量研究比较少。本次研究的前期工作从定量角度研究如何利用folksonomy标签对兴趣相似用户进行分类,提出通过定量分析标签来研究用户共性的思想,给出基于标签进行用户分类的具体方法和操作流程,最后以Flickr为例对用户分类方法进行了实证研究。本文将关注重点放在研究用户的共性,即通过标签建立同义词环,提出通过标签及其建立的同义词环对用户进行分类的方法,使得同一类中的用户在兴趣上具有较大的相似性,这样当同类中有用户更新资源时,可以向其类中的其他用户进行推送,以帮助扩大用户、获取更多有用信息。
2、改进基于folksonomy的用户分类思想
2.1 基于标签及同义词环用户分类方法的提出
一般说来,folksonomy是用户为了信息组织的方便对自己或者他人创建的资源用标签自由标注,并将资源和标签共享以供自己或者他人检索的过程或结果。它是一种以标签为目的的“自下而上的社会化分类”信息组织方法。标签是folksonomy最核心的内容,是一种描述性的非结构化元数据,由用户根据自己的理解和喜好自由添加,不受任何词表的约束,标签从某些方面代表了用户的兴趣所在,所以依据标签对用户进行分类,然后对用户进行兴趣推荐是十分可行的。根据标签进行用户分类的基本思路:先确定不同用户之间是否有重复的标签,确定有多少个重复标签,再确定重复标签被使用的次数,次数越多,重复标签的个数越多的,就说明这两个用户兴趣越相似。
但是不得不考虑标签同义现象,同义词受很多因素的影响,如地区、生活环境、用语习惯等。不同用户使用不相同的标签,也有可能这些标签是同义词,因此他们也是兴趣相似用户。如果仅看标签是否完全相同就对用户进行分类,必然会漏掉很多兴趣相似的用户,使分类结果的粒度过细,将兴趣原本相同的用户分到了若干组,系统便不能很好地帮助用户推荐,使得用户不能通过和自己兴趣相似的人发现更多有用的资源,影响了兴趣推送的质量。所以,要想将用户更好地进行分类,需要先对标签进行分析,建立同义词环,用标签本身和其同义词去进行比对,减小这种偏差,尽量使兴趣接近的用户分在同一类中。
2.2 同义词环和标签聚类
同义词环类似于传统分类法中的同义词表,但是这里的同义词,是指同时出现频率很高的标签。研究发现:如果两个标签经常一起出现,之间必定存在某种关联,可将其聚成同一类词。所以基于folksonorny数字资源的相关词在同义词表中可能根本不存在,或者根本不属于严格的同义词,这是因为标签空间是一个平面空间,标签之间的关系都是直线关系,不像传统词表中有上位词、下位词等,有可能某两个相关词之间具有某种包含关系。所以在这里不能直接使用同义词表。
构建同义词环也就是将标签进行聚类,如同现实生活中的人不是孤立存在一样,标签空间中的标签也不是孤立存在的。它们之间或多或少地有着千丝万缕的联系。按照这种关联可以形成一个标签平面空间,将标签抽象成点,点与点之间的无向边表示这两个标签之间有某种联系,标签平面空间形成的即是一个无向图。如图l所示:
图1中A、B、c、D、E是五个标签,它们之间有一条线相连,表明这些标签之间存有联系,而标签之间的强弱关联是不一样的,于是有些学者提出了一些相对共现的权重计算方法。Cattuto、Loreto和Pietronero表示,标签之间共现关系的非平凡性可以描述成语义学,标签的相似性被认为是标签之间的一种语义关系,可通过标签之间的相对共现进行评价,即众所周知的Jac-card系数。设A和B是两个标签捕述的资源集,相对共现的定义为:RC(A,B]=|A∩B|/|A∪B|,即相对共现等于标签共现的资源数除以任一标签出现的资源数。标签之间的共现分析可以揭示协同标记中的语义关系,如标
文档评论(0)