分众分类中的网络资源分类的标签过滤技术评价.ppt

分众分类中的网络资源分类的标签过滤技术评价.ppt

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * Evaluating tag filtering techniques for web resource classification in folksonomies ——分众分类中的网络资源分类的 标签过滤技术评价 分众分类中的网络资源分类的标签过滤技术评价 1 摘 要 2 引 言 3 背景及相关作品 4 基于标签的Web资源分类 5 标签处理方法的评价 * 6 结 论 摘 要 社会化协作式标签系统是基于人类共同知识的新出现的网络分类方法,并在Del.icio.us等站点得到广泛运用。协同式标签系统是包括用户、资源和标签的三元数据结构,这些标签有助于促进访问和浏览大量网络资源。本文提供了一种确定标签在资源分类上价值的经验研究方法。此外,还分析了使用若干过滤器和预处理过程来减少标签的模糊性和噪音的方法。 关键词:网络资源分类 社会标签系统 分众分类法 分众分类中的网络资源分类的标签过滤技术评价 1 摘 要 2 引 言 3 背景及相关作品 4 基于标签的Web资源分类 5 标签处理方法的评价 * 6 结 论 引 言 社会化标签系统是伴随web2.0出现的最流行的内容分享应用之一。由于其简明性,集体创建和管理标签来标注和分类内容的实践已经取得巨大成功。在Del.icio.us,Technorati或者Flickr这类站点中,用户自由选择一组关键词或者开放式的标签来标注各种异构的资源,例如:网页、博客帖子、图片或者视频,社会化标签能自动化地完成将资源手动地分类到预定义的类别中费时费力的工作。 本文通过使用协作产生的开放式标签(比如网页)来分类资源的方法进行了一个经验评价。实验数据源于一系列由专家分类的来源于网站目录的网页和非专家用户给定的标签(Noll Meinel)。为了获取有代表性的资源并与不同的分类器比较,本文采用了大量的元数据来对比。 分众分类中的网络资源分类的标签过滤技术评价 1 摘 要 2 引 言 3 背景及相关作品 4 基于标签的Web资源分类 5 标签处理方法的评价 * 6 结 论 背景及相关作品 分众分类法是社会分类框架的基本结构,它依赖于大量社区用户使用的频次最高的标签来分类系统,从而有效地组织和导航大型信息空间。 Folksonomy = taxonomy + folk 一个分众分类可以定义为一个三元数组A=(U,T,R),其意思是:用户U,资源R,以及标记其间的三元关系的用户指定的标签。 背景及相关作品 关于 Folksonomy 特点 用户自发定义 标签分类是公开共享的 由用户群体定义的频率来决定 缺点 缺乏层次性 表达概念的模糊性(缺乏语义精确性,缺乏同义词控制……) 优点 易于接受,自由灵活 动态更新 分众分类中的网络资源分类的标签过滤技术评价 1 摘 要 2 引 言 3 背景及相关作品 4 基于标签的Web资源分类 5 标签处理方法的评价 * 6 结 论 基于标签的Web资源分类 基于标签的Web资源分类 数据集的描述 Web资源表示 基于标签的分类结果 数据集的描述 本研究中使用的元数据是: 标签:包含一个社会化书签的完整历史,对于每个数据集中的文件,它的完整的书签历史都抓取自Del.icio.us的HTML网页上。 锚文本:定义为文本的范围内出现一个HTML标记。在数据集中,每个文件有多达100个的提交页面得到处理。 查询:指所有用于AOL500k语料库在一个特定网页出现结果集的查询。 Web资源表示 三种信息源 单独文件(标签,查询条件和锚文本) 所有资源的组合(查询条件+锚文本+标签) 三种其他组合(查询+锚文本,查询+标签,锚文本+标签) 两种分类器 朴素贝叶斯分类器 Weka9机器学习算法 两个评价指标 标准精度 回忆偏差 基于标签的分类结果 基于标签的分类结果 基于标签的分类结果 分众分类中的网络资源分类的标签过滤技术评价 1 摘 要 2 引 言 3 背景及相关作品 4 基于标签的Web资源分类 5 标签处理方法的评价 * 6 结 论 标签处理方法的评价 术语词干 在大多数语言中,相似语义解释的词有很多形态变化,这在信息检索中被视为是相同的。例如computer, computers, compute, computes, computed, computational, computational

您可能关注的文档

文档评论(0)

junjun37473 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档