网站大量收购独家精品文档,联系QQ:2885784924

信息检索理论与方法.docVIP

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索理论与方法

信息检索:理论与方法 第一部分 信息检索理论 一.掌握和熟悉 1. 信息检索的基本原理:即对信息集合与需求集合的匹配与选择。* 2. 信息检索常用技术:* · 布尔检索:逻辑与:如,A*B ,表明一篇文献中A和B必须同时存在。 例:郭沫若*语言学 (同时满足两个条件) 逻辑或:如,A+B ,表明文献中A或B必须存在,包含同时存在。 逻辑非:如,A- B ,表明一篇文献中包含A但不包含B。 例:郭沫若;除去语言学 (对某一个检索要求进行限制) 逻辑“或”提高查全率,逻辑“与”和“非”提高查准率。 · 截词检索:后截断:computer*,可检索出:computeracy, computerise, computers 前截断:*computer,可检索出:microcomputer, minicomputer 中截断:organi ? ation,可检索出:organisation,organization 前后截断:*computer* · 限制检索:为缩小命中文献的数量,将检索范围限定在某个字段或范围中。 ·全文位置检索:可以反映出两个检索词在文献中的邻近关系。常用在全文检索中, 弥补布尔检索的不足。 · 加权检索: ·多媒体检索:基于内容的检索是指根据媒体对象的内容及上下文联系,在大规模多媒体数据库中进行检索。它的目标是提供在没有人类参与的情况下能自动识别或理解声音、图象、视频重要特征的算法。 · 超文本检索:超文本是一种信息的组织方法。 3.信息检索当代技术:* ? 并行检索:两个或两个以上的程序或任务并行处理。 ? 分布式检索:允许检索请求在不同地点、不同结构的系统平台上运作。Z39.50 协议是一种信息检索标准,常用于分布在各地的图书馆书目数据库系统的检索。 遵循了Z39.50协议,只要进入一个界面,不需要重新退出再进入。 近年来推出了基于OAI协议的分布式检索。作为开放式数字资源库,OAI必须 遵守如下规定:作为数据库提供者应能用通用公共元数据描述所存储的对象 ? 基于知识的智能检索:如检索“华人”,可把包含“中华人民共和国”的内容不 检索出来;检索“电脑”,可以把包含“计算机”的内容检索出来。现阶段智能 型检索系统应该有以下功能:a.具有大规模实例描述的汉语分词排歧知识库;b. 具有主题词典、广义同义词检索、拼音检索、同音检索等功能;c.具有基于内容 的相似性检索功能,具有自动分类和自动摘要功能,具有知识压缩和去重功能; d.具有文本挖掘功能等。 ? 知识挖掘:主要指文本挖掘技术的发展,目的是帮助人们更好地发现、组织、 表示信息,提取知识,满足信息检索的高层次需要。(包括摘要、分类等) ? 异构信息整合检索:能够检索和整合不同来源和结构的信息。 ? 全息检索:就是支持一切格式和方式的检索。 ? 自然语言检索:应是信息检索的发展趋势。自然语言与人工语言相结合,才能 更好地发挥自然语言检索的优势。 ? 跨语言信息检索:可以用一种语言去检索其他语言的资源。 ? 问答系统:输入的查询是问题,要求从给定语料库中返回文本。 ? 概念空间:通过对目标文档进行概念选取、概念类聚而形成,是一个概念网络。 概念空间是一个智能化索引,每个索引项(概念)通过一层或多层的概念与原 文档建立联系。 ? 信息融合技术:是一种综合利用多种信息资源,以获得对某一事物更客观、更本质认识的信息处理技术。可以合理地组织查询结果,减少不必要的信息冗余,使用户获得完整、准确、及时、有效的而且是简洁、明了的实用信息。 4.检索效果评价:判定一个检索系统的优劣,主要应从质量、费时和时间三方面来衡量。* 5.查全率=检出的相关信息数/信息库中相关信息总数*100 %= a / a + c *100 %* 6.查准率=检出的相关信息数/检出的信息总数*100% = a / a + b * 100%* 查全率和查准率必须结合使用,单独使用两者中的任何一个都不能全面说明检索效果的好坏。若检出一篇相关信息,必能达到100%的查准率,但查全率却会非常低;同样,若检出信息数等于库中信息的总量,则必能100%的查全率,但查准率一定很低。* 7.误检率=检出的非相关信息数/检出的信息总数*100%=b / a+b * 100% * 8.漏检率=未检出的相关信息数/信息库中相关信息总数*100%

文档评论(0)

teda + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档