第四讲信息检索原理方法策略.ppt

  1. 1、本文档共82页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四讲信息检索原理方法策略课件

第4讲 信息检索 4.1信息检索及其原理 4.1.1信息检索概述 1.信息检索定义 1)国外关于信息检索的定义(Beihang 《信息检索原理》课程) 信息检索-Information Retrieval (IR) – the science of searching for documents, forinformation within documents and formetadata about documents, as well as that ofsearching relational databases and the WorldWide Web. -From Wikipedia – 关于对文档、文档中的信息、文档的元数据的有哪些信誉好的足球投注网站,以及对关系数据库和万维网有哪些信誉好的足球投注网站的科学 2)国内定义 指为达到某一特定目的,将信息源与用户需求连接起来,查询、鉴别、选择并确定相关信息的过程p159。广义的信息检索包括“存储”和“检索”两个部分,狭义的信息检索仅指广义中的检索部分。 4.1信息检索及其原理 4.1.1信息检索概述 2.信息检索的作用 获取知识的途径,学习的助手 管理和决策的依据-全面、准确、及时的信息——切合实际、正确无误决策 科学研究的工具和指南 信息控制的手段 4.1信息检索及其原理 4.1.1信息检索概述 3.信息检索原理 即检索者的检索提问词与存储在检索系统中的检索标引词进行匹配对比、取得一致,即为检索命中,命中结果可从检索系统中以各种方式输出。检索者可据此线索对原文进行判断、筛选,以获取自己所需要的信息。广义和狭义(p160) 见信息检索原理图 4.1信息检索及其原理 4.1.1信息检索概述 信息检索原理 即检索者的检索提问词与存储在检索系统中的检索标引词进行匹配对比、取得一致,即为检索命中,命中结果可从检索系统中以各种方式输出。检索者可据此线索对原文进行判断、筛选,以获取自己所需要的信息。 4.1信息检索及其原理 4.1.1信息检索概述 4.信息检索途径(p161) 所谓检索途径就是检索时切入信息群体的路径。检索途径有两大类,一类是用信息的外部特征,如题名、责任者、某种序号、机构名等作为检索标识;另一类是用能够描述信息内容的分类号、关键词、主题词等作为检索标识。在数据库中检索时,几乎所有的字段都可以作为检索的途径。 1)分类途径 :分类语言, “分类目录”“分类索引”,便于族性检索 2)主题途径 :主题语言 , “主题索引” “关键词索引” “叙词索引” ,便于特性检索 3)著者途径 :“著者目录” 、“著者索引” 4)其他途径 篇名途径包括书名、刊名和篇名 序号途径包括报告号、标准号、专利号、登记号等 分子式途径 4.1信息检索及其原理 4.1.2.信息的组织与标引 1.信息组织 信息组织是为了方便人们检索获取信息,将大量、庞杂、无序的信息进行系统化和有序化的过程。它包括信息的描述(外部特征 ),信息的标引(内容 ),信息的整序等过程。 2.信息标引 标引是指根据一定的规则和程序对文献内容进行分析, 然后赋予每篇文献以一定数量的内容标识(分类号、主题词、关键词等 ) ,作为存储与检索的依据。 标引的第一步叫“概念标引”,目前自动标引正成为一种新的发展方向:其流程主要包括:自动分词——选出标引词——转换 。 4.1信息检索及其原理 4.1.3信息检索语言 1. 信息检索语言的概念 又称为标引语言、引索语言、文献检索语言、信息存储与检索语言等 , 它是用于描述信息系统中信息的内部特征和外部特征及表达信息用户需求提问的一种专门语言。是一种把文献的存储与检索联系起来、把标引人员和检索人员沟通起来的约定人工语言 2.检索语言的种类 按是否受控划分为人工语言和自然语言 按内容性质划分为分类语言和主题语言 4.1信息检索及其原理 4.1.3信息检索语言(p163-177自学,考点) 2.1分类语言 用分类号和相应分类款目来表达各种概念, 它以学科体系为基础将各种概念按学科性质和逻辑层次结构进行分类和系统排序。 按照分类方式又分为体系分类语言、组配分类语言和混合分类语言。 2.2主题语言 对表达信息主题内容特征的主题词汇概念经规范化处理所形成的检索语言。 按照主题性质的不同,又分为标题词语言、单元词语言、叙词语言、关键词语言和引文语言。 4.1信息检索及其原理 4.1.4分类检索语言 1.分类的思想 文献分类的实质是按照知识体系分类和概念逻辑方法,对文献信息进行区分和归类。 类目是组成分类语言的基本单元,每一个类目都是一个相同事物构成的集合。 根据文献信息的内容特征和分类词表,把相同内容的文献信息集中起来,又把不同

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档