- 1、本文档共14页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索理论与方法
信息检索:理论与方法
第一部分 信息检索理论
一.掌握和熟悉
1. 信息检索的基本原理:即对信息集合与需求集合的匹配与选择。*
2. 信息检索常用技术:*
· 布尔检索:逻辑与:如,A*B ,表明一篇文献中A和B必须同时存在。
例:郭沫若*语言学 (同时满足两个条件)
逻辑或:如,A+B ,表明文献中A或B必须存在,包含同时存在。
逻辑非:如,A- B ,表明一篇文献中包含A但不包含B。
例:郭沫若;除去语言学 (对某一个检索要求进行限制) 逻辑“或”提高查全率,逻辑“与”和“非”提高查准率。
· 截词检索:后截断:computer*,可检索出:computeracy, computerise, computers
前截断:*computer,可检索出:microcomputer, minicomputer
中截断:organi ? ation,可检索出:organisation,organization
前后截断:*computer*
· 限制检索:为缩小命中文献的数量,将检索范围限定在某个字段或范围中。
·全文位置检索:可以反映出两个检索词在文献中的邻近关系。常用在全文检索中,
弥补布尔检索的不足。
· 加权检索:
·多媒体检索:基于内容的检索是指根据媒体对象的内容及上下文联系,在大规模多媒体数据库中进行检索。它的目标是提供在没有人类参与的情况下能自动识别或理解声音、图象、视频重要特征的算法。
· 超文本检索:超文本是一种信息的组织方法。
3.信息检索当代技术:*? 并行检索:两个或两个以上的程序或任务并行处理。? 分布式检索:允许检索请求在不同地点、不同结构的系统平台上运作。Z39.50 协议是一种信息检索标准,常用于分布在各地的图书馆书目数据库系统的检索。 遵循了Z39.50协议,只要进入一个界面,不需要重新退出再进入。 近年来推出了基于OAI协议的分布式检索。作为开放式数字资源库,OAI必须 遵守如下规定:作为数据库提供者应能用通用公共元数据描述所存储的对象? 基于知识的智能检索:如检索“华人”,可把包含“中华人民共和国”的内容不 检索出来;检索“电脑”,可以把包含“计算机”的内容检索出来。现阶段智能 型检索系统应该有以下功能:a.具有大规模实例描述的汉语分词排歧知识库;b. 具有主题词典、广义同义词检索、拼音检索、同音检索等功能;c.具有基于内容 的相似性检索功能,具有自动分类和自动摘要功能,具有知识压缩和去重功能; d.具有文本挖掘功能等。? 知识挖掘:主要指文本挖掘技术的发展,目的是帮助人们更好地发现、组织、 表示信息,提取知识,满足信息检索的高层次需要。(包括摘要、分类等)? 异构信息整合检索:能够检索和整合不同来源和结构的信息。? 全息检索:就是支持一切格式和方式的检索。? 自然语言检索:应是信息检索的发展趋势。自然语言与人工语言相结合,才能 更好地发挥自然语言检索的优势。? 跨语言信息检索:可以用一种语言去检索其他语言的资源。
? 问答系统:输入的查询是问题,要求从给定语料库中返回文本。
? 概念空间:通过对目标文档进行概念选取、概念类聚而形成,是一个概念网络。 概念空间是一个智能化索引,每个索引项(概念)通过一层或多层的概念与原 文档建立联系。
? 信息融合技术:是一种综合利用多种信息资源,以获得对某一事物更客观、更本质认识的信息处理技术。可以合理地组织查询结果,减少不必要的信息冗余,使用户获得完整、准确、及时、有效的而且是简洁、明了的实用信息。
4.检索效果评价:判定一个检索系统的优劣,主要应从质量、费时和时间三方面来衡量。*
5.查全率=检出的相关信息数/信息库中相关信息总数*100 %= a / a + c *100 %*
6.查准率=检出的相关信息数/检出的信息总数*100% = a / a + b * 100%*
查全率和查准率必须结合使用,单独使用两者中的任何一个都不能全面说明检索效果的好坏。若检出一篇相关信息,必能达到100%的查准率,但查全率却会非常低;同样,若检出信息数等于库中信息的总量,则必能100%的查全率,但查准率一定很低。*
7.误检率=检出的非相关信息数/检出的信息总数*100%=b / a+b * 100% *
8.漏检率=未检出的相关信息数/信息库中相关信息总数*100%
您可能关注的文档
- 二、重要會計政策之彙總說明-POYA寶雅.doc
- 互聯網技術.ppt
- 二,硬件配置.doc
- 五、串行口通信技术.ppt
- 五、TheAndrewFileSystem.doc
- 五、中断.ppt
- 五笔字型疑难杂字表-五笔字根表图.doc
- 井下人员定位系统与通信联络系统-江西省安全生产监督管理局.ppt
- 五、网格圈型集聚纺纱装置的研究与改进-江南大学教务处.ppt
- 产品信息-Dell.doc
- 第14课《叶圣陶先生二三事》教学设计 2023—2024学年统编版语文七年级下册.docx
- 18.2.1 《矩形的性质》 教学设计 2024--2025学年人教版八年级数学下册.docx
- 门店租赁协议合同.docx
- 门店租贷合同协议.docx
- 合伙租房合同协议书范本.docx
- 合伙租房创业协议书范本.docx
- 合伙租地协议书范本.docx
- Unit 3 My weekend plan Part B Let's learn & Role play(教学设计)-2024-2025学年人教PEP版英语六年级上册.docx
- 第10课《阳光运动·多彩的体育运动》(教学设计)-2023-2024学年四年级下册综合实践活动桂科版.docx
- 1古诗二首《村居》教学设计-2023-2024学年统编版语文二年级下册.docx
文档评论(0)