信息组织第七章自然语言在信息组织中的应用课件.ppt

信息组织第七章自然语言在信息组织中的应用课件.ppt

  1. 1、本文档共194页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息组织第七章自然语言在信息组织中的应用课件

三.网络检索系统中的后控制技术 透视墙视图 三.网络检索系统中的后控制技术 显示4个聚类类目的“scatter/gather”系统接口 三.网络检索系统中的后控制技术 TileBar-模式文档细节显示视图 本节小结 后控制有哪些措施? 后控词表及其编制要求 后控词表在信息检索系统中的应用 思考在网络环境下后控技术的控制方式,如何应用? 二.后控词表应用 网络化词表的应用 网络化词表的联机检索应用 MeSH browser Biosis 网络化词表的Web检索应用 Social Science information Gateway( HASSET) Art, Design, Architecture Media Information Gateway (Art and Architecture Thesaurus) MeSH 三.网络检索系统中的后控制技术 1.分类目录限定――领域限定、修整 2.检索式的修整、优化 3.检索结果控制 1.分类目录限定――领域限定、修整 检索主题的领域修整,是就用户构造检索策略而言的。 领域限定的目的是将查询限定在用户感兴趣的某个领域内进行有哪些信誉好的足球投注网站,避免产生过量的结果信息。 三.网络检索系统中的后控制技术 2.检索式的修整、优化 1)停用词典――检索词有效性控制 2)截词词典――检索词词形控制 3)词间关系词表――检索式概念控制 三.网络检索系统中的后控制技术 1)停用词典――检索词有效性控制 停用词典收录所有对检索无意义和高频率的虚词、介词及增加系统资源开销的插入语等性质的词和短语。 例如: “的”、“of”、 “the”、介词、“一般来说”、“总体而言” … 三.网络检索系统中的后控制技术 2)截词词典――有效检索词词形控制 截词检索有字面成族的作用,而字面成族的词中有一部分或大部分又是概念成族的,所以利用截词检索可提高检全率,但也会带出一些误检的网络资源。 截词必须适可而止,截去部分过多反而会增加误检率。 截词检索主要是针对英语等西方语系而言的。 E.g.“communicat-” Communicate,communication ,communicating 三.网络检索系统中的后控制技术 3)词间关系词表――检索式概念控制 检索式的重新构造或者说是优化主要是通过使用与检索式有词间关系的新词来扩展或缩减来完成。 词间关系词表是组织那些用来帮助你发现你想发现的,但并没有想到的等级词、同义词、相关词的词库。 如:“Elderly people(老人)”= “Senior citizens(老人)” 网络后控检索的两种模式: “松散浏览模式” “松散检索模式” 三.网络检索系统中的后控制技术 概念/词条关系的获得方式(1)--基于词表 基于词表(thesaurus)。手工建立辞典来存储概念层次及词条之间的交叉联系,该工作通常有领域专家来完成。如,UMLS(统一医学语言)。 E.g. SOSIG社会科学专业有哪些信誉好的足球投注网站引擎中使用的Hasset主题词表。 百度有哪些信誉好的足球投注网站引擎具有根据检索式反馈一系列相关检索词的功能,通过用户与系统的交互,实现辅助用户构造检索策略、优化检索式的功能,从而得到相对全面、准确的检索结果。分析其本质,其关键技术实质是系统内置了一个类似于同义词、相关词词典的“后控”的相关关系词表。 三.网络检索系统中的后控制技术 三.网络检索系统中的后控制技术 SOSIG(社会科学主题网关) eXcite的Zoom In检索助手实例 三.网络检索系统中的后控制技术 百度“相关有哪些信誉好的足球投注网站”功能 三.网络检索系统中的后控制技术 获得方式(2)--基于语料知识库技术 语料知识库(Knowledge base),是使用语法分析、统计等技术从文档集合中自动学习,是一种建立在知识网络基础上的概念推理的检索方法。 是概念检索的高级阶段--智能检索。 语料知识库:WordNet,HowNet(知网) 三.网络检索系统中的后控制技术 WordNet 三.网络检索系统中的后控制技术 HowNet(知网) 三.网络检索系统中的后控制技术 WordNet提供的关系类型 三.网络检索系统中的后控制技术 WordNet1.6检索系统 三.网络检索系统中的后控制技术 后控检索应用中的注意点 后控词间关系词表在检索系统中应该以“词族片断”的结构形式存放。 词间关系词表控制下的查询扩展,一定要注意让用户根据检索意图(或者说是检索的语义概念)来选择,通过交互式的术语提示方式来实现控制。 三.网络检索系统中的后控制技术 3.检索结果控制 检索结果的后处理,也是检索的一个过程,对检索结果的控制在网络信息检索环境中特别必要和重要。 按相关度计算来排序检索结果(百分比、星级显示) 按检索结果主题内容聚类(

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档