第2章_信息检索基础知识.ppt

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第2章_信息检索基础知识精要

高校教学型PPT模板 第二章 信息检索基础知识 2.1 信息检索的概念 2.2 信息检索语言 2.3 数据库的编排结构及检索原理 2.4 计算机常用检索技术 2.5 信息检索的过程和步骤 2.6 检索效果评价 [本章要点] 检索原理、各种检索语言极其特点 常用计算机检索技术、常用运算符* 检索策略的构建方法 检索效率评价指标 2.2 信息检索语言 检索语言:用于表达信息各种内容和外表特征的人工语言,也称信息存储与检索语言、索引语言、标引语言、表示系统等 检索语言是各种体系分类法、组配分类法、标题词法、单元词法、叙词法、关键词法以及各种代码体系、引证关系的统称 检索语言是在信息存储和检索过程中共同使用、共同遵循的语言规则(见下表) 目前世界上有两千种左右的信息检索语言 信息检索语言 信息存储过程 信息检索过程 2.2 信息检索语言的作用和种类 1) 检索语言的作用:建立信息存储与信息检索两个过程交流、沟通的桥梁. 2) 检索语言的分类(续) 分类语言包括: 体系分类语言---又称等级分类法、列举式分类法,我国分类法的代表如:《中国图书馆图书分类法》p13 分析—综合分类语言(组配分类法) 2.3 数据库的编排结构及检索原理 数据库:是以特定的组织方式将相互关联的数据集合、存储的总汇。 1) 数据库的类型 ①文献书目数据库 如:中国人民大学图书馆馆藏书目数据库 ②事实和数据型数据库 如:万方企业信息数据库 ③全文数据库 如:中国期刊全文数据库 除上述三种基本的数据库类型之外,还有多种混合型的数据库形式: 如“数值-----全文型”,“书目----数值---全文型”数据库 2) 数据库的结构 数据库是由一个或多个文档(file)构成的集合,每个文档由若干记录(record)组成,每条记录由若干字段(field )构成。 2) 数据库的编排结构(续) 数据库的编排结构:计算机检索系统中数据库的每条及录像的编排方式,有顺排文档和倒排文档两种。 例如:若要检索“反坦克导弹发展趋势”方面的文献,输入检索式“反坦克导弹and发展趋势” 3) 数据库检索原理 2.4 计算机检索常用技术 目前计算机检索中,已经 为人们普遍使用的技术有: 超文本检索 命令检索 限定检索 加权检索 等 2.4 计算机检索常用技术(续) — 扩展检索:一种传统的智力检索技术,是由系统基于词表对多个相关词检索进行“逻辑或(OR)”的运算检索 如在中国期刊全文数据库中,用“信用卡”进行扩展检索,系统自动提供“银行、持卡人、存款、磁卡”等多个相关词语供检索者选择并添加。 2.5 信息检索的过程与步骤 信息检索的循环过程图 2.5 信息检索的过程与步骤(续) 信息检索的步骤: 1)分析课题以及明确研究目的、范围和主题内容 ①明确信息检索目的: ②侧重学科范围:有针对性地选择数据库。 ③文献类型、语种及时间。 ④ 涉及的主题内容。例如,课题“论我国地震保险制度的建立”可先将研究内容做以下提问转换。P26 2)选择适合的信息来源 3)制定检索策略(制定检索策略是计算机检索特有的步骤,是将检索意图用计算机能识别的形式表达出来即综合考虑检索点、限定条件、检索用词、计算机所使用的算符,构建检索表达式。) 4)执行检索 (完成检索策略的构建,选定各种限制条件,输入检索式,即可执行在线检索过程。) 2.6 检索效果评价 2.6.1 检索效果评价指标 (1)查全率 查全率(recall Ratio )定义为检索结果中的相关记录数与数据库中总的相关记录数的比值,它表示检索到的相关记录的比例。其计算公式如下: (2)查准率 查准率(Precision Ratio )定义为检索结果中相关记录数与检索结果总数的比值,是对检出文献准确程度的量度,表示检索到的总记录中相关记录的比例。其计算公式如下: (3)漏检率 漏检率(Omission Ratio )即未检出的相关文献数与文献库内相关文献总数的比例。其计算公式如下 (4)误检率 误检率(Noise Ratio )即查出的不相关与检出文献总数的比例。其计算公式如下 : ( 5 )其他评价指标 ① 新颖率。是从检索系统中检出来的对用户而言含有新颖信息的文献件数与文档中总相关文献数、检出的总文献数或检出的总相关文献数之比。 ② 错检率。是从检索系统中检出来的无关文献量与系统中无关文献总量之比,它与专指度存在互补关系。 ③ 覆盖率。是在某一特定时间里,从某一检索系统中检索到的涉及特定主题领域的所有文献数与该主题领域相关的实有文献总数之比。这一指标反映

您可能关注的文档

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档