- 1、本文档共168页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索概论03-基本原理ppt课件
信息检索概论 Introduce to Information Retrieval 主要内容 3.1 信息检索原理 3.2 检索系统 3.3 检索语言 3.4 检索技术 3.5 检索策略 3.6 信息检索评价 信息检索作为一门学科,其历史可追溯到19世纪下半叶。但在20世纪中期以前,信息存储和传播主要以纸质文献为载体,信息检索活动也围绕着文献的获取和控制展开,因此,信息检索研究关注的是如何检索利用文献中记载的信息,文献检索一度成为信息检索的同义词。20世纪50年代开始了计算机应用时代,信息检索得到迅速发展并使用情报检索一词。由于汉语中“信息”较“情报”的含义更为宽泛,加上英文information可以理解为“信息”或“情报”,随着通讯技术与计算机技术的紧密结合,信息载体类型的多样化及传播手段的改进,情报检索研究和文献检索研究逐渐归入信息检索研究这一具兼容性的概念。 随着信息学的快速发展,作为信息贮存、获取技术方法的信息检索的研究范围也日趋扩展,主要包括:信息检索原理,信息检索系统,信息检索语言与技术,信息检索评价方法等。本章首先对这些理论基础及概念做简要介绍。 3.1 信息检索原理 信息检索 (Information Retrieval) 是在 1949 年国际数学会议上由 Galvin W. Mooers 首次提出,在其发表的《把信息检索看作是时间性的通讯》论文中指出:“信息检索是一种时间性的通讯形式”,“在时间上从一个时刻通往一个较晚的时刻,而在空间上可能还在同一地点”,并强调“信息接受者是最活跃的一方”。这一看法,揭示了信息存储与获取两个环节是一种延时行的通讯形式。我们可以用一句话概括信息检索的基本原理,即对信息集合与需求集合的匹配和选择。 3.1.1 信息检索的概念 信息检索有广义和狭义的之分。 广义的信息检索全称为“信息存储与检索” (information storage and retrieval ),是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。 狭义的信息检索仅指信息的查询,即从信息集合中迅速、准确地查找出所需信息的程序和方法。信息集合可以是数据库的全部记录,也可以是某种检索工具,还可以是某个图书馆的全部馆藏。信息检索也就是从数据库、检索工具以及馆藏中查找所需信息的活动。 示例:《3D计算机图形学》 信息存储 存储过程就是按照检索语言(主题词表或分类表)及其使用原则对原始文献信息进行处理,形成文献信息特征标识,为检索提供经过整序(即形成检索途径)的文献信息集合的过程。 具体来说,文献信息的存储包括对文献信息的著录、标引以及编排正文和所附索引等。所谓文献信息的著录是按照一定的规则对文献信息的外表特征和内容特征加以简单明确的表述。文献信息的标引是就文献信息的内容按一定的分类表或主题词表给出分类号或主题词。 信息检索 检索过程则是按照同样的主题词表(或分类表)及组配原则分析课题,形成检索提问标识,根据检索系统所提供的检索途径,从文献信息集合中查获与检索提问标识相符的信息特征标识的过程。 因此只有了解文献信息处理人员如何把文献信息存入检索系统,才能懂得如何从检索系统中检索所需信息。 这里,匹配的相似性标准一般是通过把信息集合和需求集合预先进行某种形式化的加工和表示来提供的。对于文本而言,最主要、最常用的匹配标准是由某个或若干个词汇表达的“主题”、“关键词”、分类号等。 也就是说,存储与检索所依据的规则必须一致,标引者与检索者必须遵守相同的标引规则。这样,无论什么样的标引者,对同一篇文献的标引结果一致,不论是谁来检索,都能查到这篇文献。 3.1.2 信息检索的原理 信息检索的基本原理是:通过对大量的、分散无序的文献信息进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。其中存储是为了检索,而检索又必须先进行存储。 概括地说,信息检索的原理就是对信息集合与需求集合的匹配和选择。 检索时将用户需求集合中的检索标识提交到检索系统中,与信息检索系统中存储的信息特征标识进行进行逐一比对,两者完全一致或基本一致时,即为检索命中信息,可按用户要求从检索系统中输出。 为了在信息集合与需求集合之间建立起联系和沟通,以便能从信息集合中快速获取用户所需要的信息和知识,信息检索提供了一种“匹配”机制,这种机制的主要功能在于能快速把需求集合与信息集合依据某种相似性标准进行比较和判断,进而选择出符合用户需要的信息。 这种“匹配”和“选择”机制的实现,在很大程度上依赖于信息检索系统所采用的信息检索模型的优劣。 信息检索的模型,就是运用数学的语言和工具,对信息检索系统中的信息及
文档评论(0)